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内 容 提 要 

本 书 是 计算 机 科学 方 而 的 经 典 名 著 。 书 的 内 容 围 绕 程 序 设 计 人 员 
面 对 的 一 系列 实际 问题 展开 。 作 者 Jon Bentley 以 其 独 有 的 洞察 力 和 创 
造 力 ， 引 导读 者 理解 这 些 问题 并 学 会 解决 方法 ， 而 这 些 正 是 程序 员 实 
际 编程 生涯 中 至 天 重要 的 。 本 书 的 特色 是 通过 一 些 精 心 设计 的 有 趣 而 
又 顾 具 指导 意义 的 程序 ， 对 实用 程序 设计 技巧 及 基本 设计 原则 进行 了 
透彻 而 罕 智 的 描述 ， 为 复杂 的 编程 问题 提供 了 清晰 而 完备 的 解决 思 
路 。 本 书 对 各 个 层次 的 程序 员 都 具有 很 高 的 阅读 价值 。 
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钱 丽 艳 北京 大 学 信息 科学 技术 学 院 基 础 实验 教学 研究 所 软件 实验 
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会 电路 与 系统 分 会 图 论 与 系统 优化 专业 委员 会 秘书 长 、 中 国 计 算 机 学 
会 和 中 国电 子 学 会 高 级 会 员 ， 毕 业 于 中 国 科 学 技术 大 学 ， 目 前 主要 从 
事 算 法 分 析 和 计算 复杂 度 、 量 子 信 息 处 理 等 方面 的 研究 工作 ， 翻 译 出 
版 了 多 部 国外 著名 离散 数学 和 计算 理论 教材 。 


译 者 序 


本 书 作 者 Jon Bentley 是 美国 著名 的 程序 员 和 计算 机 科学 家 ， 他 于 
20 世 纪 70 年 代 前 后 在 很 有 影响 力 的 《ACM 通 讯 》 (Communications of 
the ACM) 上 以 专栏 的 形式 连续 发 表 了 一 系列 短文 ， 成 功 地 总 结 和 所 
炼 了 目 己 在 长 期 的 计算 机 程序 设计 实践 中 积 社 下 来 的 宝贵 经 验 。 这 些 
短文 充满 7 了 真知灼见 ， 而 且 文 笔 生 动 、 可 读 性 强 ， 对 于 提高 职业 程序 
员 的 专业 技能 很 有 帮助 ， 因 此 该 专栏 大 受 读者 欢迎 ， 成 为 当时 该 学 术 
期 刊 的 王牌 栏目 之 一 。 可 以 想象 当时 的 情形 颇 似 早年 金庸 先生 在 《 明 
报 》 上 连载 其 武侠 小 说 的 盛况 。 后 来 在 ACM 的 鼓励 下 ， 作 者 经 过 仔细 
修订 和 补充 整理 ， 对 各 篇 文章 的 先后 次 序 做 了 精心 编排 ， 分 别 在 1986 
年 和 1988 年 结集 出 版 了 Programming Pearls 〈(《 编 程 珠 现 》) 和 More 
Programming Pearls (《 编 程 球 现 CÈ) 》) 这 两 本 书 ， 二 者 均 成 为 该 
领域 的 名 著 。《 编 程 珠 现 (第 2 版 ，》 在 2000 年 问世 ， 书 中 的 例子 都 改 
用 C 语 言 书写 ， 并 多 处 提 到 如 何 用 C++ 和 Java 中 的 类 来 实现 。《 编 程 
RIL GÈ) 》 虽 未 再 版 ， 例 子 多 以 Awk 语 言 写成 ， 但 其 语法 与 C 相 近 ， 
Ra AE 

作者 博 贤 群 书 ， 劳 征 博 引 ， 无 论 是 计算 机 科学 的 专业 名 车 ， 如 
《计算 机 程序 设计 艺术 》， 还 是 普通 的 科普 名 车， 如 《 啊 哈 ! 灵机 一 
动 》， 都 在 作者 笔下 信 手 牛 来 、 妮 妮 道 出 ， 更 不 用 说 随处 可 见 的 作者 
目 己 的 真知 灼 见 了 。 如 有 果 说 《计算 机 程序 设计 艺术 》 这 样 的 巨著 代表 
了 程序 员 们 使 用 的 “坦克 和 大 炮 ” 一 类 的 重型 武器 ， 这 两 本 书 则 在 某 种 
程度 上 类 似 于 鲁迅 匈 生 所 说 的 “ 攻 首 与 投 枪 ”一 类 的 轻型 武器， 更 能 满 


足 职业 程序 员 的 日 常 需 要。 或 者 说 前 者 是 武侠 小 说 中 提高 内 力 修 为 的 
根本 秘籍 ， 后 者 十 点 挨 临 阵 招数 的 速成 宝典 ， 二 者 同样 者 是 克 敌 制胜 
的 法 宝 ， 缺 一 不 可 。 在 无 止境 地 追求 精 并 技艺 这 一 点 上 ， 程 序 员 、 数 
学 家 和 武侠 们 其 实 是 相通 的 。 

在 美国 ， 这 两 本 书 不 仅 被 用 作 大 学 低 年 级 数据 结构 与 算法 课程 的 
教材 ， 还 用 作 高 年 级 算法 课程 的 辅助 教材 。 例 如 ， 美 国 著名 大 学 麻 省 
理工 学 院 的 电气 工程 与 计算 机 科学 开放 式 核心 课程 算法 导论 就 将 这 两 
本 书 列 为 推荐 读物 。 这 两 本 书 窗 过 了 大 学 算法 课程 和 数据 结构 课程 的 
大 部 分 内 容 ， 但 是 与 普通 教材 的 侧重 点 又 不 一 样 ， 不 强调 单纯 从 数学 
上 来 进行 分 析 的 技巧 ， 而 是 强调 结合 实际 问题 来 进行 分 析 、 应 用 和 实 
现 的 技巧 ， 因 此 可 作为 大 学 计算 机 专业 的 算法 、 数 据 结构 、 软 件 工程 
等 课程 的 教师 参考 用 书 和 优秀 谍 外 读物 。 书 中 有 许多 真实 的 历史 案例 
和 许多 极 好 的 练习 题 以 及 部 分 练习 题 的 提示 与 解答 ， 非 党 适合 目 学 。 
正如 作者 所 建议 的 那样 ， 阅 读 这 两 本 书 时 ， 读 者 需要 备 有 纸 和 笔 ， 基 
好 还 有 一 台 计 算 机 在 手边 ， 边 读 边 想 、 边 想 边 做 ， 这 样 才能 将 阅读 这 
两 本 书 的 收 和 益 最 大 化 。 

人 民 邮 电 出 版 社 引进 版 权 ， 同 时 翻译 出 版 了 《编程 珠 现 (第 2 
版 ) 》 和 《编程 球 丽 (SE) 》， 使 这 两 个 中 译本 珠联璧合 ， 相 信 这 不 
仅 能 极 大 地 满足 广大 程序 员 读 者 的 需求 ， 还 有 助 于 提高 国内 相关 课程 
的 授课 质量 和 学 生 的 学 习 兴 趣 。 

本 书 主 要 由 黄 信和 钱 丽 艳 翻译 ， 刘 田 审 校 ， 翻 译 过 程 中 得 到 了 张 
怀 勇 先生 的 帮助 ， 在 此 表示 感谢 。 由 于 本 书 内 容 深 刻 ， 语 言 精妙 ， 而 
译 者 的 水 平和 时 间 都 比较 有 限 ， 错 误 和 不 当 之 处 在 所 难免 ， 敬 请 广大 
读者 批评 指正 。 


计算 机 编程 有 很 多 方面 。Fred Brooks 在 《人 月 神话 》 一 书 中 为 我 
们 描绘 了 人 全景， 他 的 文章 强调 了 管理 在 大 型 软件 项 目 中 所 起 的 关键 作 
用 。 而 Steve McConnell 在 《代码 大 全 》 一 书 中 更 具体 地 传授 了 良好 的 
编程 风格 。 这 两 本 书 所 讨论 的 是 好 软件 的 天 键 因 素 和 专业 程序 员 应 有 
的 特征 。 遗 憾 的 是 ， 仅 仅 熟练 地 运用 这 些 可 靠 的 工程 原理 ， 不 见得 一 
定 能 够 如 期 完成 软件 并 顺利 运行 。 

关于 本 书 

本 书 描述 了 计算 机 编程 更 具 魅 力 的 一 面 : 在 可 靠 的 工程 之 外 ， 在 
洞察 力 和 创造 力 范 围 内 结晶 而 出 的 编程 球 丽 。 正 如 上 自然 界 中 的 珍珠 来 
B FEER DE, AE ERIL A FEET EER] 
题 。 书 中 的 程序 都 很 有 趣 ， 传 授 了 重要 的 编程 技巧 和 基本 的 设计 原 
Hie 

本 书 大 部 分 内 容 最 初 发 表 在 《ACM IT) PREFERI, 
专栏 。 这 些 内 容 经 过 汇总 和 修订 ， 在 1986 年 结集 出 版 ， 成 为 了 本 书 的 
第 1 版 。 第 1 版 的 13 篇 文章 中 ， 有 12 篇 都 在 本 版 中 做 了 大 幅 修 订 ， 此 
外 ， 本 版 还 补充 了 3 篇 新 的 内 容 。 

阅读 本 书 所 需 的 唯一 背景 知识 就 是 某 种 高 级 语言 的 编程 经 验 。 书 
中 偶尔 会 出 现 一 些 高 级 技术 (如 C++ 中 的 模板 等 ) ， 对 此 不 熟悉 的 读 
者 可 以 跳 过 这 些 内 容 ， 基 本 上 不 影响 阅读 。 

本 书 每 一 章 都 独立 成 篇 ， 各 章 之 间 却 又 有 着 逻辑 分 组 。 第 1 章 至 第 
5 章 构成 本 书 的 第 一 部 分 ， 这 部 分 回顾 了 编程 的 基本 原理 : 问题 定义 、 


算法 、 数 据 结构 以 及 程序 验证 和 测试 。 第 二 部 分 围绕 效率 这 个 主题 展 
开 。 效 率 问 题 有 时 本 号 很 重要 ， 又 永远 都 是 进入 有 趣 编程 问题 的 绝 佳 
跳板 。 第 三 部 分 用 这 些 技术 来 解决 排序 、 搜 索 和 字符 串 等 重要 问题 。 

阅读 本 书 的 一 个 提示 : 不 要 读 得 太 快 。 要 仔细 阅读 ， 一 次 读 一 
划 。 要 党 试 解答 书 中 提出 的 问题 一 一 有 些 问题 需要 集中 精力 思考 一 两 
个 小 时 才 会 变 得 容易 。 然 后 ， 要 努力 解答 每 章 末尾 的 习题 : 当 读者 写 
下 答案 时 ， 从 本 书 学 到 的 大 部 分 知识 就 会 跃然 纸 上 。 如 有 可 能 ， 要 先 
与 朋友 和 同事 讨论 一 下 目 己 的 思路 ， 再 去 查阅 本 书 末 尾 的 提示 和 答 
案 。 每 章 末 尾 的 “深入 阅读 ”并 不 算是 学 术 意 义 上 的 参考 文献 表 ， 而 是 
我 推荐 的 一 些 好 书 ， 这 些 书 是 我 个 人 藏书 的 重要 部 分 。 

本 书 是 为 程序 员 而 写 的。 我 希望 书 中 的 习题 、 提 示 、 答 案 和 深入 
阅读 对 每 个 人 都 有 用 。 本 书 已 用 作 算法 、 程 序 验 证 和 软件 工程 等 课程 
的 教材 。 附 录 人 A 中 的 算法 分 类 可 供 实 际 编程 人 员 参 考 ， 该 附录 同时 还 
说 明了 如 何在 算法 和 数据 结构 课程 中 使 用 本 书 。 

代码 

本 书 第 1 版 中 的 伪 代 码 程序 其 实 都 已 实现 ， 但 当时 未 公开 。 在 本 版 
中 ， 我 重 写 了 所 有 的 老 程 序 ， 并 且 编 写 了 差不多 等 量 的 新 代码 。 这 些 
程序 可 以 在 http://netlib.bell-labs.com/cm/cs/pearls/ 下 载 。 代 码 中 包含 许 
多 对 函数 进行 测试 、 调 试 和 计时 的 脚 手 染 程序 。 该 网 站 还 提供 了 其 他 
相关 的 材料 。 由 于 现在 许多 的 软件 都 能 在 线 获 得 ， 因 此 本 版 的 一 个 新 
PAA ize: 如 何 评估 和 使 用 软件 组 件 。 

本 书 的 程序 采用 了 简洁 的 代码 风格 : 短 变 量 名 ， 很 少 空 行 ， 很 少 
或 没有 错误 检测 。 这 种 风格 不 适用 于 大 型 软件 项 目 ， 却 有 助 于 表达 算 
法 的 核心 思想 。 第 5 章 第 1 个 习题 的 答案 给 出 了 这 种 风格 的 更 多 细节 。 

本 书包 含 儿 个 实际 的 C 和 C++ 程序 ， 其 余 大 多 数 函 数 都 用 伪 代 码 来 
表示 ， 这 样 既 节省 了 空间 ， 又 避免 了 党 珊 的 语法 。 记 号 fori = [0,n) 表 
示 在 从 0 至 n-1 的 范围 内 对 i 进 行 闪 代 。 在 这 类 for 循环 中 ， 左 圆 括号 和 


右 圆 括号 代表 开 区 间 〈 不 包括 端点 值 ) ， 而 左 方 括号 和 右 方 括号 代表 
HKE 〈 包 括 端 点 值 ) 。 表 达 式 function(i,j) 仍 表示 用 参数 i 和 j 调 用 画 
数 ， 而 array[i,j] 仍 表示 访问 数组 元 素 。 

本 版 所 提供 的 许多 程序 的 运行 时 间 痢 基于 “我 的 计算 机 ”一 一 一 台 
128 MB 内 存 、 运 行 Windows NT 4.0 操 作 系 统 的 400 MHz Pentium II。 我 
测试 了 这 些 程序 在 其 他 几 台 机 器 上 的 运行 时 间 ， 书 中 记录 了 我 观察 到 
的 一 些 显 著 的 差异 。 所 有 的 实验 都 使 用 了 最 高 级 别 的 编译 器 优化 。 建 
议 读者 在 自己 的 计算 机 上 对 这 些 程序 计时 ， 我 敢 打赌 读者 将 会 发 现 相 
似 比 率 的 运行 时 间 。 

致 第 1 版 的 读者 

我 希望 你 们 在 翻阅 本 版 时 的 第 一 感觉 是 “看 起 来 很 眼熟 啊 "， 而 过 
几 分 钟 又 得 出 结论 “以 前 从 来 没 读 过 ”。 

本 版 与 第 1 版 主题 相同 ， 但 涉及 的 范围 更 广 。 计 算 技术 已 经 在 数据 
库 、 网 络 和 用 户 界 面 等 重要 领域 取得 了 长 足 的 进展 。 大 多 数 程序 员 应 
当 都 熟悉 这 些 技术 。 但 是 ， 这 些 领域 的 中 心 仍然 是 那些 核心 编程 问 
题 ， 这 些 问 题 还 是 本 书 的 主题 。 相 对 于 第 1 版 而 言 ， 本 版 可 以 比喻 为 一 
条 稍微 长 大 了 的 鱼 ， 游 进 了 一 个 大 得 多 的 池塘 。 

第 1 版 第 4 章 关 于 实现 二 分 搜索 的 一 万 内 容 经 过 扩充 成 为 了 本 版 中 
关于 测试 、 调 试 和 计时 的 第 5 章 。 第 1 版 第 11 章 经 过 扩充 ， 在 本 版 中 分 
成 了 第 12 章 (还 讨论 原来 的 问题 ， 和 第 13 章 (讨论 集合 表示 ) 。 第 1 版 
第 13 章 描述 的 在 64 KB 地 址 空间 运行 的 拼写 检查 句 已 被 删除 ， 但 其 要 
点 仍 保留 在 13.8 节 中 。 新 增 的 第 15 章 讨论 字符 串 问题 。 本 版 在 第 1 版 的 
各 章 中 搬入 了 许多 新 节 ， 同 时 删除 了 一 些 旧 节 。 新 增 的 习题 、 答 案 以 
及 4 个 附录 使 得 本 版 篇 幅 比 第 1 版 增加 了 25%。 

本 版 保留 了 许多 原 有 的 实例 研究 ， 因 为 它们 具有 历史 价值 。 有 些 
老 故 事 则 用 现代 术语 做 了 改写 。 

第 1 版 的 致谢 


对 许多 人 给 予 我 的 诸多 帮助 ， 我 一 直 心 存 感激 。Peter Denning 和 
Stuart Lynn 最 早 设想 在 《ACM 通 讯 》 上 开设 专栏 。Peter 在 计算 机 学 会 
(ACM) 内 做 了 大 量 的 工作 ， 促 成 了 该 专栏 ， 并 动员 我 来 主持 这 个 专 
= o ACM ib ht 〈 特 别 是 Roz Steier 和 Nancy Adriance) 在 本 书 各 篇 
文章 最 初 发 表 时 给 予 大 力 协助 。 我 要 特别 感谢 ACM 辟 励 我 以 目前 这 种 
经 过 修订 的 形式 来 出 版 各 篇 文革 ;还 要 特别 感谢 《ACM 通 讯 》 的 众多 
读者 ， 他 们 对 原始 各 篇 文章 的 评论 使 得 这 个 扩充 版 本 成 为 必要 的 和 可 
能 的 。 

Al Aho ` Peter Denning ` Mike Garey ` David Johnson ` Brian 
Kernighan ` John Linderman ` Doug McIlroy 和 Don Stanat 都 非常 仔细 地 
读 过 每 一 革 ， 尽 管 时 间 期 限 常常 很 紧 。 我 还 要 感谢 以 下 诸位 的 宝贵 意 
JL: Henry Baird ` Bill Cleveland ` David Gries ` Eric Grosse ` Lynn 


Jelinski ` Steve Johnson ` Bob Melville ` Bob Martin ` Arno Penzias ` 
Marilyn Roper ` Chris Van Wyk ` Vic Vyssotsky 和 Pamela Zave ° Al 
Aho ` Andrew Hume ` Brian Kernighan ` Ravi Sethi ` Laura Skinger 和 
Bjarne Stroustrup 在 本 书 的 成 书 过 程 中 给 予 了 无 法 估量 的 帮助 ， 而 西点 
军校 EF 485 课 程 的 学 员 实 际 核对 了 倒数 第 二 稿 [1] 。 再 次 谢谢 诸位 。 
第 2 版 的 致谢 
Dan Bentley ` Russ Cox ` Brian Kernighan ` Mark Kernighan ` John 


Linderman ` Steve McConnell ` Doug McIlroy ` Rob Pike ` Howard 
Trickey 和 Chris Van Wyk 都 非常 仔细 地 阅读 过 本 版 。 我 还 要 感谢 以 下 诸 
位 的 宝贵 意见 : Paul Abrahams ` Glenda Childress ` Eric Grosse ` Ann 
Martin ` Peter McIlroy ` Peter Memishian ` Sundar Narasimhan ` Lisa 
Ricker ` Dennis Ritchie ` Ravi Sethi 、 Carol Smith ` Tom Szymanski #1 
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[1]. 原作 者 在 给 译 痢 的 电子 邮件 中 指出 ， 他 曾 在 西点 军校 授课 ， 用 本 
书 草 稿 作 为 ，EF 为 Engineering Fundamentals (工程 基础 ) 系 的 缩 
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第 一 部 分 基础 


这 一 部 分 的 5 章 回顾 程序 设计 的 基础 知识 。 第 1 章 介绍 一 个 问题 的 
历史 ， 我 们 把 仔细 的 问题 定义 和 直接 的 程序 设计 技术 结合 起 来 ， 得 到 
优美 的 解决 方案 。 这 一 章 揭示 了 本 书 的 中 心思 想 : 对 实例 研究 的 深入 
思考 不 仅 很 有 趣 ， 而 且 可 以 获得 实际 的 益处 。 

第 2 章 讨 论 3 个 问题 ， 其 中 重点 强调 了 如 何 由 算法 的 融会 贯通 获得 
简单 而 高 效 的 代码 。 第 3 章 总 结 数据 结构 在 软件 设计 中 所 起 到 的 关键 作 
用 。 

第 4 章 介 绍 一 个 编写 正确 代码 的 工具 一 一 程序 验证 。 在 第 9 章 、 第 
11 章 和 第 14 章 中 生成 复杂 (HRE) 的 函数 时 ， 大 量 使 用 了 程序 验证 
技术 。 第 5 章 讲 述 如 何 把 这 些 抽 象 的 程序 变 成 实际 代码 : 使 用 脚手架 程 
序 来 探测 函数 ， 用 测试 用 例 来 测试 函数 并 度量 函数 的 性 能 。 

本 部 分 内 容 


第 1 章 开篇 
第 2 章 啊 哈 ! 算法 
第 3 章 数据 决定 程序 结构 
第 4 章 编写 正确 的 程序 
第 5 章 编程 小 事 


第 1 章 开篇 


一 位 程序 员 曾 问 我 一 个 很 简单 的 问题 : “怎样 给 一 个 磁盘 文件 排 
Fee " 想 当 年 我 是 一 上 来 就 犯 了 错误 ， 现 在 ， 在 讲 这 个 故事 之 前 ， 先 给 
大 家 一 个 机 会 ， 看 看 能 人 否 比 我 当年 做 得 更 好 。 你 会 皇 样 回答 上 述 问题 
Wee 


1.1 一 次 友好 的 对 话 


我 错 吕 错 在 马上 回答 了 这 个 问题 。 我 告诉 他 一 些 有 关 如 何在 磁 甬 
上 实现 归并 排序 的 简要 思路 。 我 建议 他 深入 研究 算法 教材 ， 他 似乎 不 
太 感 冒 。 他 更 关心 如 何 解 决 这 个 问题 ， 而 不 是 深入 学 习 。 于 是 我 千 诉 
他 在 一 本 流行 的 程序 设计 书 里 有 磁 副 排序 的 程序 。 那 个 程序 有 大 约 200 
行 代码 和 十 几 个 函数 ， 我 估计 他 最 多 需要 一 周 时 间 来 实现 和 测试 该 代 
码 。 

我 以 为 已 经 解决 了 他 的 问题 ， 但 是 他 的 路 路 使 我 返回 到 了 正确 的 
轨道 上 。 其 后 就 有 了 下 面 的 对 话 ， 楷 体 部 分 是 我 的 问题 。 

为 什么 非 要 上 自己 编写 排序 程序 呢 ? 为 什么 不 用 系统 提供 的 排序 功 
BENE’ 

我 需要 在 一 个 大 系统 中 排序 。 由 于 不 明 的 技术 原因 ， 我 不 能 使 用 
系统 中 的 文件 排序 程序 。 

需要 排序 的 内 容 是 什么 ? 文件 中 有 多 少 条 记录 ? 每 条 记录 的 格式 
征 什 么 ? 

文件 最 多 包含 1 千 万 条 记录 ， 每 条 记录 都 是 7 位 的 整数 。 

等 一 下 ， 既 然 文 件 这 么 小 ， 何 必 非 要 在 磁 强 上 进行 排序 呢 ? 为 什 
么 不 在 内 存 里 进行 排序 呢 ? 

尽管 机 器 有 许多 兆 字 闻 的 内 存 ， 但 排序 功能 只 是 大 系统 中 的 一 部 
分 ， 所 以 ， 售 计 到 时 只 有 1 MB 的 内 存 可 用 。 

你 还 能 告诉 我 其 他 一 些 与 记录 相关 的 信息 吗 ? 


每 条 记录 都 是 7 位 的 正 整数 ， 再 无 其 他 相关 数据 。 每 个 整 效 最 多 只 
出 现 一 次 。 

这 番 对 话 让 问题 更 明确 了 。 在 类 国 ， 电 话 号 码 由 3 位 “区 号 ”后 再 跟 
7 位 数字 组 成 。 拨 打 含 “免费 ”区 号 800 (当时 只 有 这 一 个 号 码 ) 的 电话 
征 不 收费 的 。 实 际 的 免费 电话 号 码 数据 库 包 含 大 量 的 信息 : 免费 电话 
号 码 、 呼 叫 实际 中 转 到 的 号 码 《有 时 是 几 个 号 码 ， 这 时 需要 一 些 规则 
来 决定 哪些 呼叫 在 什么 时 间 中 转 到 哪里 ;) 、 主 叫 用 户 的 姓名 和 地 址 
fete 

这 位 程序 员 正 在 开发 这 类 数据 库 的 处 理 系统 的 一 小 部 分 ， 需 要 排 
序 的 整数 束 是 免费 电话 号 码 。 输 入 文件 是 电话 号 码 的 列表 (已 删除 所 
有 其 他 信息 ) ， 号 码 重 复出 现 算 出 错 。 期 望 的 输出 文件 是 以 升序 排列 
的 电话 号 码 列表 。 应 用 背景 同时 定义 了 相应 的 性 能 需求 。 当 与 系统 的 
会 话 时 间 较 长 时 ， 用 户 大 约 每 小 时 请 求 一 次 有 序 文件 ， 并 且 在 排序 未 
完成 之 前 什么 都 干 不 了 。 因 此 ， 排 序 最 多 只 人 允许 执行 几 分 钟 ，10 秒 钟 
是 比较 理想 的 运行 时 间 。 


1.2 的 问题 描述 


对 程序 员 来 说 ， 这 些 需求 加 起 来 就 是 : “如 何 给 磁盘 文件 排序 ? ” 
在 试图 解决 这 个 问题 之 前 ， 先 将 已 知 条 件 组 织 成 一 种 更 客观 、 更 易 用 
的 形式 。 

输入 : 一 个 最 多 包 人 台 n 个 正 整数 的 文件 ， 每 个 数 都 小 于 n， 其 中 
n=10”。 如 琳 在 输入 文件 中 有 任何 整数 重复 出 现 束 古 致 命 锯 误 。 没 有 其 
他 数据 与 该 整数 相关 联 。 

输出 ， 按 升序 排列 的 输入 整数 的 列表 。 

约束 : 最 多 有 (大约) 1 MB 的 内 存 空间 可 用 ， 有 充足 的 磁 副 存储 
空间 可 用 。 运 行 时 间 最 多 几 分 钟 ， 运 行 时 间 为 10 秒 就 不 需要 进一步 优 


ET? 
请 化 上 一 分 钟 思 考 一 下 该 问题 的 规范 说 明 。 现 在 你 打算 给 程序 员 
什么 样 的 建议 呢 ? 


1.3 程序 设计 


显而易见 的 方法 是 以 一 般 的 基于 磁盘 的 归并 排序 程序 为 起 点 ， 但 
是 要 对 其 进行 调整 ， 因 为 我 们 是 对 整数 进行 排序 。 这 样 就 可 以 将 原来 
的 200 行 程序 减少 为 几 十 行 ， 同 时 也 使 得 程序 运行 得 更 快 ， 但 是 完成 程 
序 并 使 之 运行 可 能 仍然 需要 几 天 的 时 间 。 

男 一 种 解决 方案 更 多 地 利用 了 该 排序 问题 的 特殊 性 。 如 果 每 个 号 
码 都 使 用 7 个 字 节 来 存储 ， 那 么 在 可 用 的 1 MB 存储 空间 里 大 约 可 以 存 
143 000 个 号 码 。 如 果 每 个 号 码 都 使 用 32 位 整数 来 表示 的 话 ， 在 1 MBF 
储 空间 里 就 可 以 存储 250 000 个 号 码 。 因 此 ， 可 以 使 用 遍历 输入 文件 40 
趟 的 程序 来 完成 排序 。 在 第 一 趟 遍历 中 ， 将 0 至 249 999 之 间 的 任何 整数 
都 读 入 内 存 ， 并 对 这 (最 多 ) 250000 个 整数 进行 排序 ， 然 后 写 到 输出 
文件 中 。 第 二 趟 遍历 排序 250 000 至 499 999 之 间 的 整数 ， 依 此 类 推 ， 到 
第 40 趟 遍历 的 时 候 对 9 750 000229 999 999 之 间 的 整数 进行 排序 。 对 内 
存 中 的 排序 来 说 ， 快 速 排序 会 相当 高 效 ， 而 且 仪 仅 需 要 20 行 代码 〈 见 
第 11 章 ) 。 于 是 ， 整 个 程序 就 可 以 通过 一 两 页 纸 的 代码 实现 。 该 程序 
拥有 所 期 望 的 特性 一 一 不 必 考 虑 使 用 中 间 磁 盘 文 件 ， 但 是 ， 为 此 所 付 
出 的 代价 是 要 读 取 输入 文件 40 次 。 

归并 排序 读 入 输入 文件 一 次 ， 然 后 在 工作 文件 的 帮助 下 完成 排序 
并 写 入 输出 文件 一 次 。 工 作文 件 需要 多 次 读 写 。 


40 趟 算法 读 入 输入 文件 多 次 ， 写 输出 文件 仅 一 次 ， 不 使 用 中 间 文 
(人 


a eS eee U] 
的 和 文人 多 趟 排序 Hz 输出 文件 


下 图 所 示 的 方案 更 可 取 。 我 们 结合 上 述 两 种 方法 的 优点 ， 读 输入 
文件 仅 一 次 ， 且 不 使 用 中 间 文 件 。 


1 神奇 排序 一 加 出 文人 


只 有 在 输入 文件 中 的 所 有 整数 都 可 以 在 可 用 的 1 MB 内 存 中 表示 的 
时 候 才 能 够 实现 该 方案 。 于 是 问题 束 归 结 为 是 否 能 够 用 大 约 800 万 个 可 
用 位 来 表示 最 多 1 000 万 个 互 异 的 整数 。 考 虑 一 种 合适 的 表示 方式 。 


1.4 实现 概要 


由 是 观 之 ， 应 该 用 位 图 或 位 癌 量 表示 集合 。 可 用 一 个 20 位 长 的 字 
符 串 来 表示 一 个 所 有 元 素 都 小 于 20 的 简单 的 非 负 整数 集合 。 例 如 ， 可 


Ht 


以 用 如 下 字符 串 来 表示 集合 {1,2,3,5,8,13}: 

01110100100001000000 

代表 集合 中 数值 的 位 都 置 为 7， 其 他 所 有 的 位 都 置 为 0 。 

在 我 们 的 实际 问题 中 ， 每 个 7 位 十 进 制 整数 表示 一 个 小 于 1 000 万 的 
整数 。 我 们 使 用 一 个 具有 1 000 万 个 位 的 字符 串 来 表示 这 个 文件 ， 其 
中 ， 当 且 仅 当 整 数 i 在 文件 中 存在 时 ， 第 i 位 为 1。 (那个 程序 员 后 来 找 
到 了 200 万 个 稀 朴 位 ， 习 题 5 研究 了 最 大 存储 空间 严格 限制 为 1 MB 的 情 
况 。) 这 种 表示 利用 了 该 问题 的 三 个 在 排序 问题 中 不 常见 的 属性 : 输 
入 数据 限制 在 相对 较 小 的 范围 内 ; 数据 没有 重复 ; 而 且 对 于 每 条 记录 
而 言 ， 除 了 单一 整数 外 ， 没 有 任何 其 他 关联 数据 。 

若 给 定 表示 文件 中 整数 集合 的 位 图 数据 结构 ， 则 可 以 分 三 个 自然 
阶段 来 编写 程序 。 第 一 阶段 将 所 有 的 位 都 置 为 0， 从 而 将 集合 初始 化 为 
空 。 第 二 阶段 通过 读 入 文件 中 的 每 个 整数 来 建立 集合 ， 将 每 个 对 应 的 
位 都 置 为 1°。 第 三 阶段 检验 每 一 位 ， 如 果 该 位 为 1， 就 输出 对 应 的 整 
数 ， 由 此 产生 有 序 的 输出 文件 。 令 n 为 位 向 量 中 的 位 数 (在 本 例 中 为 10 
000 000) ， 程 序 可 以 使 用 伪 代 码 表示 如 下 : 

/* phase 1: initialize set to empty */ 

for i = [0,n) 
bit[i] = 0 


/* phase 2: insert present elements into the set */ 


for each i in the input file 
bit[i] = 1 
/* phase 3: write sorted output */ 
for i = [0,n) 
if bit[i] == 1 


write i on the output file 


(回想 在 前 言 中 所 提 到 的 ，for i=[0,n) 表 示 在 从 0 至 n-1 的 范围 内 对 i 
进行 适 代 。) 

这 个 实现 概要 已 经 足以 解决 那个 程序 员 的 问题 了 。 习 题 2、 习 题 5 
和 习题 7 描述 了 他 会 遇 到 的 一 些 实现 细节 。 


1.5 原理 


那个 程序 员 打 电话 把 他 的 问题 告诉 我 ， 然 后 我 们 花 了 大 约 一 刻 钟 
时 间 明 确 了 问题 所 在 ， 并 找到 了 位 图 解决 方案 。 他 人 花 了 几 个 小 时 来 实 
现 这 个 几 十 行 代码 的 程序 。 该 程序 远 远 优 于 我 们 在 电话 刚 开 始 时 所 担 
心 的 需要 人 花费 一 周 时 间 编 写 的 几 百 行 代 码 的 那个 程序 。 而 且 程序 执行 
得 很 快 : 磁盘 上 的 归并 排序 可 能 需要 许多 分 钟 的 时 间 ， 该 程序 所 需 的 
时 间 只 比 读 取 输 入 和 写 入 输出 所 需 的 时 间 多 一 点 点 一 一 大 约 10 秒 钟 。 
答案 3 包含 了 对 完成 该 任务 的 几 种 不 同 程序 的 计时 细 记 。 

从 这 些 事实 中 可 以 总 结 出 该 实例 研究 所 得 到 的 第 一 个 结论 ， 对 小 
问题 的 仔细 分 析 有 了 时 可 以 得 到 明显 的 实际 益 处 。 在 该 实例 中 ， 几 分 钟 
的 仔细 研究 可 以 大 幅 削 减 代码 的 长 度 、 程 序 员 时 间 和 程序 运行 时 间 。 
Chuck Yeager 将 军 (第 一 个 超 音速 飞行 的 人 ) 赞扬 一 架 飞 机 的 机 械 系统 
时 用 的 词 是 “结构 简单 、 部 件 很 少 、 易 于 维护 、 非 常 坚固 ”*"， 该 程序 拥 
有 同样 的 属性 。 然 而 ， 当 规范 说 明 的 某 些 因素 发 生 改变 时 ， 该 程序 的 
特殊 结构 将 很 难 修改 。 除 了 需要 精巧 的 编程 以 外 ， 该 实例 阐明 了 如 下 
一 般 原理 。 

正确 的 问题 。 明 确 问 题 ， 这 场 战 役 束 成 功 了 90% 一 我 很 庆幸 程序 
员 没 有 满足 于 我 给 出 的 第 一 个 程序 。 一 旦 正确 理解 了 问题 ， 习 题 10、 
习题 11 和 习题 12 的 答案 都 会 很 优雅 。 在 查看 提示 和 答案 以 前 ， 请 努力 
思考 这 些 问 题 。 


位 图 数据 结构 。 该 数据 结构 描述 了 一 个 有 限定 义 域内 的 稠密 集 
合 ， 其 中 的 每 一 个 元 素 最 多 出 现 一 次 并 且 没 有 其 他 任何 数据 与 该 元 素 
相关 联 。 即 使 这 些 条 件 没有 完全 满足 (例如 ， 存 在 重复 元 素 或 额外 的 
数据 ) ， 也 可 以 用 有 限定 义 域 内 的 键 作 为 一 个 表 项 更 复杂 的 表格 的 索 
引 ， 见 习题 6 和 习题 8。 

多 趟 算法 。 这 些 算法 多 趟 读 入 其 输入 数据 ， 每 次 完成 一 步 。 在 1.3 
万 已 经 见 到 了 一 个 40 直 算法， 习题 5 鼓励 读者 去 完成 一 个 两 趟 算法 。 

时 间 一 空间 折 中 与 双赢 。 编 程 文献 和 理论 中 充 不 着 时 间 一 空间 的 
折 中 : 通过 使 用 更 多 的 时 间 ， 可 以 减少 程序 所 需 的 空间 。 例 如 ， 答 案 5 
中 的 两 趟 算法 让 程序 运行 时 间 加 倍 从 而 使 空间 减 半 。 但 我 的 经 验 常生 
是 这 样 的 : 减少 程序 的 空间 需求 也 会 减少 其 运行 时 间 。 [1] 空间 上 高 效 
的 位 图 结构 显著 地 减少 了 排序 的 运行 时 间 。 空 间 需求 的 减少 之 所 以 会 
导致 运行 时 间 的 减少 ， 有 两 个 原因 : 需要 处 理 的 数据 变 少 了 ， 意 味 着 
处 理 这 些 数据 所 需 的 时 间 也 变 少 了 ; 同时 将 这 些 数据 保存 在 内 存 中 而 
不 是 磁盘 上 ， 进 一 步 避 免 了 磁盘 访问 的 时 间 。 当 然 了 ， 只 有 在 原始 的 
设计 远 非 最 佳 方案 时 ， 才 有 可 能 时 空 双 许 。 

简单 的 设计 。Antoine de Saint-Exupéry 是 法 国 作 家 兼 飞机 设计 师 ， 
他 曾经 说 过 : “设计 者 确定 其 设计 已 经 达到 了 完美 的 标准 不 是 不 能 再 增 
加 任何 东西 ， 而 是 不 能 再 减少 任何 东西 。” 更 多 的 程序 员 应 该 使 用 该 标 
准 来 检验 自己 完成 的 程序 。 简 单 的 程序 通常 比 具 有 相同 功能 的 复杂 的 
程序 更 可 靠 、 更 安全 、 更 健壮 、 更 高 效 ， 而 且 易 于 实现 和 维护 。 

程序 设计 的 阶段 。 这 个 实例 揭示 了 12.4 详 细 描 述 的 设计 过 程 。 


1.6 习题 
部 分 习题 的 提示 和 答案 可 以 在 本 书后 面 找到 。 


1. 如 采 不 缺 内 存 ， 如 何 使 用 一 个 具有 库 的 语言 来 实现 一 种 排序 算法 
以 表示 和 排序 集合 ? 

2. 如 何 使 用 位 逻辑 运算 (如 与 、 或 、 移 位 ) 来 实现 位 向 量 ? 

3. 运 行 时 效率 是 设计 目标 的 一 个 重要 组 成 部 分 ， 所 得 到 的 程序 需要 
足够 高 效 。 在 你 自己 的 系统 上 实现 位 图 排序 并 度量 其 运行 时 间 。 该 时 
间 与 系统 排序 的 运行 时 间 以 及 习题 1 中 排序 的 运行 时 间 相 比如 何 ? 假设 
n 为 10 000 000， 且 输入 文件 包含 1 000 000 个 整数 。 

4. 如 果 认 真 考 虑 了 习题 3， 你 将 会 面 对 生 成 小 于 n 且 没有 重复 的 k 个 
整数 的 问题 。 最 人 简单 的 方法 就 是 使 用 前 k 个 正 整 数 。 这 个 极端 的 数据 集 
合 将 不 会 明显 地 改变 位 图 方法 的 运行 时 间 ， 但 是 可 能 会 焉 曲 系统 排序 
的 运行 时 间 。 如 何 生成 位 于 0 至 n-1 之 间 的 k 个 不 同 的 随机 顺序 的 随机 整 
数 ? 尽量 使 你 的 程序 简短 且 高 效 。 

5. 那 个 程序 员 说 他 有 1 MB 的 可 用 存储 空间 ， 但 是 我 们 概要 描述 的 
代码 需要 1.25 MB 的 空间 。 他 可 以 不 费力 气 地 索取 到 额外 的 空间 。 如 果 
1 MB 至 间 是 严格 的 边界 ， 你 会 推荐 如 何 处 理 呢 ? 你 的 算法 的 运行 时 间 
又 是 多 少 ? 

6. 如 果 那 个 程序 员 说 的 不 是 每 个 整数 最 多 出 现 一 次 ， 而 是 每 个 整数 
最 多 出 现 10 次 ， 你 又 如 何 建 议 他 呢 ? 你 的 解决 方案 如 何 随 着 可 用 存储 
空间 总 量 的 变化 而 变化 ? 

7.[R.Wei 刘 本 书 1.4 节 中 描述 的 程序 存在 一 些 缺 聊 。 首 先是 假定 在 输 
入 中 没有 出 现 两 次 的 整数 。 如 有 果 某 个 数 出现 超 过 一 次 的 话 ， 会 发 生 什 
A? 在 这 种 情况 下 ， 如 何 修改 程序 来 调用 错误 处 理 函 数 ? 当 输 入 整数 
小 于 零 或 大 于 等 于 n 时 ， 又 会 发 生 什么 ? 如 果 某 个 输入 不 是 数值 又 如 
何 ? 在 这 些 情况 下 ， 程 序 该 如 何 处 理 ? 程序 还 应 该 包含 哪些 明智 的 检 
A? 描述 一 些 用 以 测试 程序 的 小 型 数据 集合 ， 并 说 明 如 何 正确 处 理 上 
述 以 及 其 他 的 不 良 情况 。 


8. 当 那个 程序 员 解 决 该 问题 的 时 候 ， 美 国 所 有 免费 电话 的 区 号 都 是 
800。 现 在 免费 电话 的 区 号 包括 800、877 和 888， 而 且 还 在 增多 。 如 何 
在 1 MB 空间 内 完成 对 所 有 这 些 人 免费 电话 号 码 的 排序 ? 如 何 将 免费 电话 
号 码 存储 在 一 个 集合 中 ， 要 求 可 以 实现 非常 快速 的 查找 以 判定 一 个 给 
定 的 免费 电话 号 码 是 否 可 用 或 者 已 经 存在 ? 

9. 使 用 更 多 的 空间 来 换取 更 少 的 运行 时 间 存 在 一 个 问题 ， 初 始 化 空 
间 本 身 需 要 消耗 大 量 的 时 间 。 说 明 如 何 设 计 一 种 技术 ， 在 第 一 次 访问 
向 量 的 项 时 将 其 初始 化 为 0。 你 的 方案 应 该 使 用 常量 时 间 进 行 初始 化 和 
向 量 访问 ， 使 用 的 额外 空间 应 正比 于 向 量 的 大 小 。 因 为 该 方法 通过 进 
一 步 增 加 空间 来 减少 初始 化 的 时 间 ， 所 以 仅 在 空间 很 廉价 、 时 间 很 宝 
贵 且 向 量 很 稀疏 的 情况 下 才 考 虑 使 用 。 

10. 在 成 本 低廉 的 隔日 送 达 时 代 之 前 ， 商 店 允 许 顾客 通 过 电话 订购 
商品 ， 并 在 几 天 后 上 门 自 取 。 商 店 的 数据 库 使 用 客户 的 电话 号 码 作为 
其 检索 的 主 关 键 字 〈 客 户 知 道 他 们 上 自己 的 电话 号 码 ， 而 且 这 些 关 键 字 
几乎 都 是 唯一 的 ) 。 你 如 何 组 织 商 店 的 数据 库 ， 以 允许 高 效 的 插入 和 
检索 操作 ? 

11. 在 20 世 纪 80 年 代 早期 ， 洛 克 希 德 公司 加 利 福 尼 亚 州 桑 尼 维尔 市 
工厂 的 工程 师 们 每 天 都 要 将 许多 由 计算 机 辅助 设计 (CAD) 系统 生成 
的 图 纸 从 工矿 送 到 位 于 圣 克 鲁 斯 市 的 测 斌 站。 虽然 仅 有 40 公 里 远 ， 但 
使 用 汽车 快递 服务 每 天 都 需要 一 个 多 小 时 的 时 间 〈 由 于 交通 阻塞 和 山 
KIRIK) ， 花 费 100 美 元 。 请 给 出 新 的 数据 传输 方案 并 估计 每 一 种 方案 
的 费用 。 

12. 载 人 航天 的 先驱 们 很 快 就 意识 到 需要 在 外 太空 的 极端 环境 下 实 
现 顺利 书写 。 民 间 盛 传 美国 国家 宇航 局 (NASA) 花费 100 万 美元 研发 
出 了 一 种 特殊 的 钢笔 来 解决 这 个 问题 。 那 么 ， 前 苏联 义 会 如 何 解 决 相 
同 的 问题 呢 ? 


1.7 深入 阅读 


这 个 小 练习 仅仅 是 令 人 痴迷 的 程序 说 明 问 题 的 冰山 一 角 。 要 深入 
研究 这 个 重要 的 课题 ， 人 参见 Michael Jackson [2] 的 Software 
Requirements & Specifications — (Addison-Wesley 出 版 社 1995 年 出 
版 ) 。 该 书 用 一 组 独立 成 章 却 又 相辅相成 的 短文 ， 以 令 人 愉悦 的 方式 
阐述 了 这 个 艰深 的 课题 。 

在 本 章 所 描述 的 实例 研究 中 ， 程 序 员 的 主要 问题 与 其 说 是 技术 问 
题 ， 还 不 如 说 是 心理 问题 : 他 不 能 解决 问题 ， 是 因为 他 企图 解决 销 误 
的 问题 。 问 题 的 最 终 解 决 ， 是 通过 打破 他 的 概念 壁垒 ， 进 而 去 解决 一 
个 较 简 单 的 问题 而 实现 的 。James L.Adams fit 2 A) Conceptuel 
Blockbusting 一 书 (第 3 版 由 Perseus 出 版 社 于 1986 年 出 版 ) 研究 了 这 类 
跳跃 ， 该 书 通常 是 触发 创新 性 思维 的 理想 选择 。 虽 然 该 书 不 是 专 为 程 
序 员 而 写 的 ， 其 中 的 许多 内 容 却 特别 适用 于 编程 问题 。Adams 将 概念 壁 
爹 定 义 为 “阻碍 解 题 者 正确 理解 问题 或 取得 答案 的 心智 壁垒 "。 习 题 
10、 习 题 11 和 习 题 12 激 励 读 者 去 打破 一 些 这 样 的 壁垒 。 


第 2 章 啊 哈 ! 算法 


研究 算法 给 实际 编程 的 程序 员 带 来 许多 好 处 。 算 法 课 教 给 学 生 完 
成 重要 任务 的 方法 和 解决 新 问题 的 技术 。 在 后 续 的 章节 中 将 会 看 到 ， 
先进 的 算法 工具 有 时 候 对 软件 系统 影响 很 大 一 一 减少 开发 时 间 ， 同 时 
使 执行 速度 更 快 。 

算法 与 其 他 那些 深奥 的 思想 一 样 重要 ， 但 在 更 一 般 的 编程 层面 上 
具有 更 重要 的 影响 。 在 《 啊 哈 ! 灵 机 一 动 》 一 书 中 (本章 的 标题 束 借 鉴 
了 它 ) , Martin Gardner [3] 描述 了 深 得 我 心 的 一 个 思想 : “看 起 来 很 困 


难 的 问题 也 可 以 有 一 个 简单 的 、 意 想不到 的 答案 。? 与 高 级 的 方法 不 
同 ， 算 法 的 啊 哈 ! 灵机 一 动 并 非 只 有 在 大 量 的 研究 以 后 才能 出 现 ;， 任 
何 愿 意 在 编程 之 前 、 之 中 和 之 后 进行 认真 思考 的 程序 员 都 有 机 会 捕捉 
到 这 灵机 一 动 。 


2.1 三 个 问题 


好 了 ,泛泛 的 话 讲 得 够 多 啦 。 本 章 将 围绕 三 个 小 问题 展开 。 在 继 
续 阅 读 以 前 ， 请 移 试 着 解决 它们 。 

A. 给 定 一 个 最 多 包含 40 亿 个 随机 排列 的 32 位 整数 的 顺序 文件 ， 找 
出 一 个 不 在 文件 中 的 32 位 整数 〈 在 文件 中 至 少 缺失 一 个 这 样 的 数 一 一 
ATA? ) 。 在 具有 足够 内 存 的 情况 下 ， 如 何 解 决 该 问题 ? WRAL 
个 外 部 的 “临时 ?文件 可 用 ， 但 是 仅 有 几 百 字 节 的 内 存 ， 又 该 如 何 解决 
该 问题 ? 

B. 将 一 个 n 元 一 维 回 量 回 左旋 转 [4] i 个 位 置 。 例 如 ， 当 n=8 且 i=3 
时 ， 回 量 abcdefgh 旋 转 为 defghabc。 倘 单 的 代码 使 用 一 个 n 元 的 中 间 辐 量 
在 n 步 内 完成 该 工作 。 你 能 否 仅 使 用 数 十 个 额外 字 克 的 存储 空间 ， 在 正 
比 于 n 的 时 间 内 完成 回 量 的 旋转 ? 

C. 给 定 一 个 英语 字典 ， 找 出 其 中 的 所 有 变 位 词 集 合 。 例 如 ， 
“pots”`\“stop” 和 *tops” 互 为 变 位 词 ， 因 为 每 一 个 单词 都 可 以 通过 改变 其 
他 单词 中 字母 的 顺序 来 得 到 。 


2.2 无 处 不 在 的 二 分 搜索 


我 想到 的 一 个 数 在 1 到 100 之 间 ， 你 来 猜 猜 看 。50? 太 小 了 。75? 
太 大 了 。 如 此 ， 游 戏 进 行 下 去 ， 直 到 你 猜 中 我 想到 的 数 为 止 。 如 果 我 
的 整数 位 于 1 到 n 之 则 ， 那 么 你 可 以 在 log, n 次 之 内 猜 中 。 如 果 n 是 1 
000，10 次 就 可 以 完成 ， 如 果 n 是 100 万 ， 则 最 多 20 次 就 可 以 完成 。 


这 个 例子 引出 了 一 项 可 以 解决 众多 编程 问题 的 技术 : 二 分 搜索 。 
初始 条 件 是 已 知 一 个 对 象 存在 于 一 个 给 定 的 范围 内 ， 而 一 次 探测 操作 
可 以 告诉 我 们 该 对 象 是 否 低 于 、 等 于 或 高 于 给 定 的 位 置 。 二 分 搜索 通 
过 重复 探测 当前 范围 的 中 点 来 定位 对 象 。 如 果 一 次 探测 没有 找到 该 对 
象 ， 那 么 我 们 将 当前 范围 减 半 ， 然 后 继续 下 一 次 探测 。 当 找到 所 需要 
的 对 象 或 范围 为 空 时 停止 。 

在 程序 设计 中 二 分 搜索 最 常见 的 应 用 是 在 有 序数 组 中 搜索 元 素 。 
在 查找 项 50 时 ， 算 法 进行 如 下 探测 。 


众所周知 ， 二 分 搜索 程序 要 正确 运行 很 困难 。 在 第 4 章 中 我 们 将 详 
细 人 研究 其 代码 。 

顺序 搜索 在 搜索 一 个 具有 n 个 元 素 的 表 时 ， 平 均 需 要 进行 /2 次 比 
较 ， 而 二 分 搜索 仅仅 进行 不 超过 log, n 次 的 比较 就 可 以 完成 。 这 在 系统 
性 能 上 会 造成 巨大 的 差异 。 下 面 的 故事 来 日 于 《ACM 通 讯 》 的 实例 人 研 
究 “TWA Reservation System” ° 

我 们 有 一 个 执行 线性 搜索 的 程序 ， 可 以 在 1 秒 钟 内 对 一 块 非常 巨大 
的 内 存 块 完成 100 次 搜索 。 随 着 网 络 的 增长 ， 处 理 每 条 消息 所 需 的 平均 
CPU 时 间 上 升 了 0.3 宫 秒 ， 这 对 我 们 来 说 是 巨大 的 变化 。 我 们 发 现 问题 
的 根源 是 线性 搜索 。 把 程序 改 为 使 用 二 分 搜索 以 后 ， 该 问题 消失 了 。 

我 在 许多 系统 中 也 遇 到 过 相同 的 问题 。 程 序 员 在 开始 的 时 候 使 用 
简单 的 顺序 搜索 数据 结构 ， 这 在 开始 的 时 候 通常 都 足够 快 。 当 搜索 变 
得 太 慢 的 时 候 ， 对 表 进 行 排序 并 使 用 二 分 搜索 通常 可 以 消除 瓶颈 。 


但 是 二 分 搜索 的 故事 并 没有 在 快速 搜索 有 序数 组 这 里 终止 。Roy 
Weil 将 该 技术 应 用 于 清理 一 个 约 1000 行 的 输入 文件 ， 其 中 仅 包含 一 个 
错误 行 。 很 不 幸 ， 肉 眼看 不 出 错误 行 。 只 能 通过 在 程序 中 运行 文件 的 
一 个 (起 始 ) 部 分 并 且 观 察 到 离奇 错误 的 答案 来 辨别 ， 这 将 会 花费 几 
分 钟 的 时 间 。 他 的 前 任 调试 人 员 试 图 通过 每 次 运行 整个 程序 中 的 少数 
几 行程 序 来 找 出 错误 行 ， 但 只 在 取得 解决 方案 的 道路 上 前 进 了 一 点 
点 。Weil 是 如 何 仅 仅 和 运行 10 次 程序 就 找到 罪魁 祸首 的 呢 ? 

经 过 前 面 的 热身 ， 我 们 现在 来 攻克 问题 A。 输 入 为 顺序 文件 ( 考 
虑 磁带 或 磁盘 一 一 虽然 磁盘 可 以 随机 读 写 ， 但 是 从 头 至 尾 读 取 文件 通 
常会 快 得 多 ) 。 文 件 包 含 最 多 40 亿 个 随机 排列 的 32 位 整数 ， 而 我 们 需 
要 找 出 一 个 不 存在 于 该 文件 中 的 32 位 整数 。 (至 少 缺少 一 个 整数 ， 因 
为 一 共有 232 也 就 是 4 294 967 296 个 这 样 的 整数 。) 如 果 有 足够 的 内 
存 ， 可 以 采用 第 1 章 中 介绍 的 位 图 技术 ， 使 用 536 870 912 个 8 位 字 节 形 
成 位 图 来 表示 已 看 到 的 整数 。 然 而 ， 该 问题 还 问 到 在 仅 有 几 百 个 字 节 
内 存 和 几 个 稀 玻 顺序 文件 的 情况 下 如 何 找到 缺失 的 整数 ? 为 了 采用 二 
分 搜索 技术 ， 就 必须 定义 一 个 范围 、 在 该 范围 内 表示 元 素 的 方式 以 及 
用 来 确定 哪 一 半 范 围 存在 缺失 整数 的 探测 方法 。 如 何 来 实现 呢 ? 

我 们 采用 已 知 包含 至 少 一 个 缺失 元 素 的 一 系列 整数 作为 范围 ， 并 
使 用 包含 所 有 这 些 整 数 在 内 的 文件 表示 这 个 范围 。 灵 机 一 动 的 结果 是 
通过 统计 中 间 点 之 上 和 之 下 的 元 素来 探测 范围 ， 或 者 上 面 或 者 下 面 的 
范围 具有 至 多 全 部 范围 的 一 半 元 素 。 由 于 整个 范围 中 有 一 个 缺失 元 
素 ， 因 此 我 们 所 需 的 那 一 半 范 围 中 必然 也 包含 缺失 的 元 素 。 这 些 就 是 
解决 该 问题 的 二 分 搜索 算法 所 需要 的 主要 想法 。 在 翻阅 答案 查看 Ed 
Reingold 是 如 何 做 的 以 前 ， 请 尝试 将 这 些 想 法 组 织 起 来 。 

对 于 二 分 搜索 技术 在 程序 设计 中 的 应 用 来 说 ， 这 些 应 用 仅仅 是 皮 
毛 而 已 。 求 根 程序 使 用 二 分 搜索 技术 ， 通 过 连续 地 对 分 区 间 来 求解 单 
变量 方程 式 (数值 分 析 家 称 之 为 对 分 法 ) 。 当 答案 11.9 中 的 选择 算法 区 


分 出 一 个 随机 元 素 以 后 ， 融 对 该 元 素 一 侧 的 所 有 元 素 递 归 地 调用 目 里 

(这 是 一 种 随机 二 分 搜索 ) 。 其 他 使 用 二 分 搜索 的 地 方 包括 树 数据 结 
构 和 程序 调试 〈 当 程序 没有 任何 提示 就 意外 中 止 时 ， 你 会 从 源 代 码 中 
哪 一 部 分 开始 探测 来 定位 错误 语句 呢 ? ) 。 在 上 述 的 每 个 例子 中 ， 分 
析 程 序 并 对 二 分 搜索 算法 做 些许 修改 ， 可 以 带 给 程序 员 功能 强大 的 啊 
哈 ! 灵机 一 动 。 


2.3 基本 操作 的 威力 


二 分 搜索 是 许多 问题 的 解决 方案 ， 下 面 俩 究 一 个 有 几 种 解决 方案 
的 问题 。 问 题 B 仅 使 用 几 十 个 字 市 的 额外 空间 将 一 个 n 元 疝 量 x 在 正比 于 
n 的 时 间 内 辣 左 旋转 i 个 位 置 。 该 问题 在 应 用 程序 中 以 各 种 不 同 的 伪装 出 
现 。 在 一 些 编程 语言 中 ， 该 功能 是 癌 量 的 一 个 基本 操作 。 更 重要 地 ， 
旋转 操作 对 应 于 交换 相 邻 的 不 同 大 小 的 内 存 块 : 每 当 拖 动 文件 中 的 一 
块 文字 到 其 他 地 方 时 ， 就 要 求 程序 交换 两 块 内 存 中 的 内 容 。 在 许多 应 
用 场合 下 ， 运 行 时 间 和 存储 空间 的 约束 会 很 庆 格 。 

可 以 通过 如 下 方式 解决 该 问题 ， 自 先 将 x 的 前 i 个 元 素 复 制 到 一 个 临 
时 数组 中 ， 然 后 将 余下 的 n 一 i 个 元 素 问 左 移 动 个 位 置 ， 最 后 将 最 初 的 i 
个 元 素 从 临时 数组 中 复制 到 x 中 余下 的 位 置 。 但 是 ， 这 种 办 法 使 用 的 i 个 
额外 的 位 置 产 生 了 过 大 的 存储 空间 的 消耗 。 田 一 种 方法 是 定义 一 个 芳 
数 将 x 向 左旋 转 一 个 位 置 (其 时 间 正 比 于 n) 然后 调用 该 函数 i 次 。 但 该 
方法 又 产生 了 过 多 的 运行 时 间 消 耗 。 

要 在 有 限 的 资源 内 解决 该 问题 ， 显 然 需 要 更 复 洒 的 程序 。 有 一 个 
成 功 的 方法 有 扩 像 精巧 的 洒 技 动作， 移动 x[0] 到 临时 变量 t:， 然 后 移动 
x[ 电 至 x[0]，x[2] 至 x 让， 依 此 类 推 (将 x 中 的 所 有 下 标 对 n 取 模 ) ， 直 至 
返回 到 取 x[0] 中 的 元 素 ， 此 时 改 为 从 t 取 值 然后 终止 过 程 。 当 i 为 3 且 n 为 
12 时 ， 元 素 按 如 下 顺序 移动 。 


如 果 该 过 程 没有 移动 全 部 元 素 ， 吏 从 x[1] 开 始 再 次 进行 移动 ， 直 到 
所 有 的 元 素 都 已 经 移动 为 止 。 习 题 3 要 求 读者 将 该 思想 还 原 为 代码 ， 务 
必 人 小 心 。 

从 另外 一 面 考察 这 个 问题 ， 可 以 得 到 一 个 不 同 的 算法 : 旋转 向量 x 
其 实 丈 是 交换 回 量子 的 两 段 ， 得 到 加 量 ba。 这 里 a 代 表 x 中 的 前 i 个 元 
素 。 假 设 a 比 b 短 ， 将 pb 分 为 bb 和 b, tb, 具有 与 4 相同 的 长 度 。 交 换 a 
和 b, ， 也 束 将 ab b, 转换 为 bbl a。 序 列 a 此 时 已 处 于 其 最 终 的 位 置 ， 
此 现在 的 问题 就 集中 到 交换 b 的 两 部 分 。 由 于 新 问题 与 原来 的 问题 具有 
相同 的 形式 ， 我 们 可 以 递归 地 解决 之 。 使 用 该 算法 可 以 得 到 优雅 的 程 
Pe (答案 3 描 述 了 Gries 和 Mills 的 迭代 解决 方案 ) ， 但 是 需要 巧妙 的 代 
码 ， 并 且 要 进行 一 些 思考 才能 看 出 它 的 效率 足够 高 。 

问题 看 起 来 很 难 ， 除 非 最 终 获 得 了 啊 蛤 ! 灵机 一 动 : 我 们 将 问题 
看 做 是 把 数组 ab 转 换 成 ba， 同 时 假定 我 们 拥有 一 个 函数 可 以 将 数组 中 
特定 部 分 的 元 素 求 逆 。 从 ab 开 始 ， 首 先 对 a 求 敢 ， 得 到 arb， 然 后 对 b 求 
Ww, feFla’ br。 最 后 整体 求 逆 ， 得 到 (a br 。 此 时 束 恰 好 是 ba。 于 
是 ， 我 们 得 到 了 如 下 用 于 旋转 的 代码 ， 其 中 注释 部 分 表示 abcdefgh 辣 左 
旋转 三 个 位 置 以 后 的 结果 。 

reverse(0,i-1) /* cbadefgh */ 

reverse(i,n-1) /* cbahgfed */ 

reverse(0,n-1) /* defghabc */ 

Doug Mcllroy [5] 给 出 了 将 十 元 数组 同上 旋转 5 个 位 置 的 翻 手 例 
子 。 初 始 时 掌心 对 关 我 们 的 脸 ， 左 手 在 右手 上 面 。 


翻转 左手 翻转 右手 翻转 双手 

翻转 代码 在 时 间 和 空间 上 都 很 高 效 ， 而 且 代 码 非 常 简短 ， 很 难 出 
fa ° Brian Kernighan [6] 和 PJ.Plauger [7] 在 其 1981 年 出 版 的 Software 
Tools in Pascal 一 书 中 ， 束 使 用 该 代码 在 文本 编辑 器 中 实现 了 行 的 移 
BY ° Kernighan 报告 称 在 第 一 次 执行 的 时 候 程序 就 正确 运行 了 ， 而 他 们 
先前 基于 链表 的 处 理 相 似 任务 的 代码 则 包含 几 个 错误 。 该 代码 用 在 几 
个 文本 处 理 系 统 中 ， 其 中 包括 我 最 初 用 于 录入 本 章 内 容 的 文本 编辑 
ax ° Ken Thompson [8] 在 1971 年 编写 了 编辑 器 和 这 种 求 池 代码， 甚至 在 
那 时 就 主张 把 该 代码 当 作 一 种 常识 。 


2.4 排序 


现在 我 们 来 讨论 问题 C。 给 定 一 本 英语 单词 字典 (每 个 输入 行 是 一 
个 由 小 写字 母 组 成 的 单词 ， 要 求 找 出 所 有 的 变 位 词 分 类 。 研 究 这 个 
问题 可 以 举 出 许多 理由 。 首 先是 技术 上 的 : 获得 这 个 问题 的 解决 方案 
需要 既 具 有 正确 的 视角 又 能 使 用 正确 的 工具 。 第 二 个 理由 更 具有 说 服 
J: 你 总 不 想 成 为 聚会 中 唯一 一 个 不 知道 “deposit”、“dopiest”、 
“posited” 和 “topside” 是 变 位 词 的 人 吧 ? 如 果 这 些 理由 还 嫌 不 够 ， 可 以 看 
一 下 习题 6 描述 的 现实 系统 中 的 一 个 相似 的 问题 。 

解决 这 个 问题 的 许多 方法 都 出 奇 地 低 效 和 复杂 。 任 何 一 种 考虑 单 
词 中 所 有 字母 的 排列 的 方法 都 注定 了 要 失败 。 单 词 
“cholecystoduodenostomy” (我 的 字典 中 单词 “duodenocholecystostomy” 


的 一 个 变 位 词 ) 有 22! 种 排列 ， 少 量 的 乘法 运算 表明 22! s1.124 x 10% 
o 即使 假设 以 内 电 一 样 的 速度 每 百 亿 分 之 一 秒 执行 一 种 排列 ， 这 也 要 
消耗 1.1 x 10° 秒 。 经 验 法 则 “fr 秒 惑 是 一 个 纳 世 纪 ”(《 见 7.1) 指出 1.1 x 
10° 是 数 十 年 。 而 比较 所 有 单词 对 的 任何 方法 在 我 的 机 器 上 运行 至 少 要 
人 花费 一 整 夜 的 时 间 一 一 在 我 使 用 的 字典 里 有 大 约 230 000 个 单词 ， 而 即 
使 是 一 个 简单 的 变 位 词 比 较 也 将 花费 至 少 1 微 秒 的 时 间 ， 因 此 ， 总 时 间 
估算 起 来 下 是 

230 000 单 词 x 230 000 比 较 / 单 词 x 1 微 秒 /比较 =52 900x 10° 微 秒 =52 
900 秒 s14.7 小 时 

你 能 够 找到 同时 避免 上 述 缺 陷 的 方法 吗 ? 

我 们 获得 的 啊 哈 ! 灵机 一 动 吏 是 标识 字典 中 的 每 一 个 词 ， 使 得 在 
相同 变 位 词类 中 的 单词 具有 相同 的 标识 。 然 后 ， 将 所 有 具有 相同 标识 
的 单词 集中 在 一 起 。 这 将 原始 的 变 位 词 问题 和 测 化 为 两 个 子 问题 : 选择 
标识 和 集中 具有 相同 标识 的 单词 。 在 进一步 阅读 之 前 ， 先 好 好 想 想 这 
些 问题 。 

对 第 一 个 问题 ， 我 们 可 以 使 用 基于 排序 的 标识 [9] : 将 单词 中 的 字 
按照 字母 表 顺 序 排列 。“deposit* 的 标识 就 是 “deiopst”， 这 也 是 
“dopiest>” 和 其 他 任何 在 该 类 中 的 单词 的 标识 。 要 解决 第 二 个 问题 ， 我 们 
将 所 有 的 单词 按照 其 标识 的 顺序 排序 。 我 所 知道 的 关于 该 算法 的 最 好 
描述 就 是 Tom Carg 记 的 翻 手表 示 : 先 用 一 种 方式 排序 (水 平 翻 手 ) ， 再 
用 另 一 种 方式 排序 GERMIF) 。2.8 节 描述 了 该 算法 的 一 个 实现 。 


2.5 原理 


排序 。 排 序 最 显而易见 的 用 处 是 产生 有 序 的 输出 ， 该 输出 既 可 以 
征 系 统 规范 要 求 的 一 部 分 ， 也 可 以 是 另 一 个 程序 (也 许 是 一 个 二 分 搜 
索 程 序 ) 的 前 期 准备 工作 。 但 是 在 变 位 词 问题 中 ， 排 序 并 不 是 关注 的 


焦点 。 排 序 是 为 了 将 相等 的 元 素 (本 例 中 为 标识 ) 集中 到 一 起 。 这 些 
标识 产生 了 另外 一 个 排序 应 用 : 将 单词 内 字母 排序 使 得 同一 个 变 位 词 
类 中 的 单词 具有 标准 型 。 通 过 给 每 条 记录 添加 一 个 额外 的 键 ， 并 按照 
这 些 键 进 行 排 序 ， 排 序 函 数 可 以 用 于 重新 排列 磁盘 文件 中 的 数据 。 在 
第 三 部 分 ， 我 们 还 会 多 次 回顾 排序 这 个 主题 。 

二 分 搜索 。 该 算法 在 有 序 表 中 查找 元 素 时 极为 高 效 ， 并 且 可 用 于 
内 存 排 序 或 磁盘 排序 。 唯 一 的 缺陷 就 是 整个 表 必须 已 知 并 且 事 先 排 好 
序 。 基 于 该 简单 算法 的 思想 在 许多 应 用 程序 中 都 有 应 用 。 

标识 。 当 使 用 等 价 关 系 来 定义 类 时 ， 定 义 一 种 标识 使 得 类 中 的 每 
一 项 都 具有 相同 的 标识 ， 而 该 类 以 外 的 其 他 项 则 没有 该 标识 ， 这 是 很 
有 用 的 。 对 单词 中 的 字母 排序 可 以 产生 一 个 用 于 变 位 词类 的 标识 。 其 
他 标识 通过 排序 给 出 。 然 后 使 用 一 个 计数 来 代表 重复 的 次 数 (于 是 标 
识 “mississippi” 可 以 写成 “44m1lp2s4” 或 将 1 省 略 一 一 “i4mp2s4”) © tH Ay 
以 使 用 一 个 包含 26 个 整数 的 数组 来 标识 每 个 字母 出 现 的 次 数 。 标 识 的 
其 他 应 用 包括 : 美国 联邦 调查 局 用 来 索引 指纹 的 方法 ， 以 及 用 来 识别 
读音 相同 但 是 拼写 不 同 的 名 字 的 Soundex 局 发 式 方法 : 


Soundex 标识 


Smith 
Smythe s530 
Schultz s243 


Shultz 


Knuth [10] 在 其 The Art of Computer Programming, Volume 3:Sorting 
and Sear ching [11] 一 书 的 第 6 章 撒 述 了 Soundex 方 法 。 

问题 定义 。 第 1 章 指 出 确定 用 户 的 真实 需求 是 程序 设计 的 根本 。 本 
章 的 中 心思 想 是 问题 定义 的 下 一 步 : 使 用 哪些 基本 操作 来 解决 问题 ? 


在 本 章 的 每 个 例子 中 ， 啊 哈 ! 灵机 一 动 都 定义 了 一 个 新 的 基本 操作 使 
得 问题 得 到 简化。 

问题 解决 者 的 观点 。 优 秀 程序 员 都 有 点 懒 : 他 们 坐 下 来 并 等 竺 灵 
机 一 动 的 出 现 而 不 急于 使 用 最 开始 的 想法 编程 。 当 然 ， 这 必须 通过 在 
适当 的 时 候 开 始 写 代码 来 加 以 平衡 。 真 正 的 技能 束 在 于 对 这 个 适当 时 
候 的 把 握 ， 这 只 能 来 产 于 解决 问题 和 反思 答案 所 获得 的 经 验 。 


2.6 习题 


1. 考 虑 查找 给 定 输入 单词 的 所 有 变 位 词 问 题 。 仅 给 定单 词 和 字典 的 
情况 下 ， 如 何 解决 该 问题 ? 如 果 有 一 些 时 间 和 空间 可 以 在 响应 任何 查 
询 之 前 预先 处 理 字典 ， 又 会 如 何 ? 

2. 给 定 包含 4 300 000 000 个 32 位 整数 的 顺序 文件 ， 如 何 找 出 一 个 出 
现 至 少 两 次 的 整数 ? 

3. 前 面 涉及 了 两 个 需要 精巧 代码 来 实现 的 向 量 旋转 算法 。 将 其 分 别 
作为 独立 的 程序 实现 。 在 每 个 程序 中 ，i 和 mn 的 最 大 公约 数 如 何 出 现 ? 

4. 儿 位 读者 指出 ， 有 既然 所 有 的 三 个 旋转 算法 需要 的 运行 时 间 都 正比 
于 n， 杂 技 算法 的 运行 速度 显然 是 求 逆 算 法 的 两 倍 。 杂 技 算法 对 数组 中 
的 每 个 元 素 仅 存储 和 读 取 一 次 ， 而 求 逆 算法 需要 两 次 。 在 实际 的 计算 
机 上 进行 实验 以 比较 两 者 的 速度 差异 ， 特 别 注意 内 存 引 用 位 置 附近 的 
问题 。 

5. 向 量 旋转 函数 将 向 量 ab 变 为 ba。 如 何 将 向 量 abc 变 为 cba? (这 对 
交换 非 相 邻 内 存 块 的 问题 进行 了 建 模 ) 。 

6.20 世 纪 70 年 代 末 期 ， 贝 尔 实验 室 开 发 出 了 “用 户 操 作 的 电话 号 码 
簿 辅助 程序 >”"， 该 程序 允许 雇员 使 用 标准 的 按键 电话 在 公司 电话 号 码 筹 
中 查找 电话 号 码 。 


要 查找 该 系统 设计 者 的 名 字 Mike Lesk [12] ， 可 以 按 “LESK*M*” 
(也 就 是 “5375*6*”) ， 随 后 ， 系 统 会 输出 他 的 电话 号 码 。 这 样 的 服务 
现在 随处 可 见 。 该 系统 中 出 现 的 一 个 问题 是 ， 不 同 的 名 字 有 可 能 具有 
相同 的 按键 编码 。 在 Lesk 的 系统 中 发 生 这 种 情况 时 ， 系 统 会 询问 用 户 
更 多 的 信息 。 给 定 一 个 大 的 名 字 文 件 (例如 标准 的 大 城市 电话 号 码 
短 ) ， 如 何 定位 这 些 * 错 误 匹配 ? 呢 ? ( 当 Lesk 在 这 种 规模 的 电话 号 码 筹 
上 做 实验 时 ， 他 发 现 错误 匹配 发 生 的 概率 仅仅 是 0.2%。) 如 何 实 现 一 
个 以 名 字 的 按键 编码 为 参数 ， 并 返回 所 有 可 能 的 匹配 名 字 的 函数 ? 

7. 在 20 世 纪 60 年 代 早 期 ，Vic Vyssotsky 与 一 个 程序 员 一 起 工作 ， 该 
程序 员 需 要 转 置 一 个 存储 在 磁带 上 的 4 000x4 000 的 和 矩阵 (每 条 记录 的 
格式 相同 ， 为 数 十 个 字 节 ) 。 他 的 同事 最 初 提 出 的 程序 需要 运行 50 个 
小 上 时。Vyssotsky 如 何 将 运行 时 间 减 少 到 半 小 时 昵 ? 

8.[J.Ullman] 给 定 一 个 n 元 实数 集合 、 一 个 实数 t 和 一 个 整数 k， 如 何 
快速 确定 是 否 存在 一 个 k 元 子 集 ， 其 元 素 之 和 不 超过 t? 

9. 顺 序 搜索 和 二 分 搜索 代表 了 搜索 时 间 和 预 处 理 时 间 之 间 的 折 中 。 
处 理 一 个 n 元 表格 时 ， 需 要 执行 多 少 次 二 分 搜索 才能 弥补 对 表 进 行 排序 


所 消耗 的 预 处 理 时 间 ? 

10. 某 一天， 一 个 新 研究 员 癌 托马斯 :爱迪生 报到 。 爱 迪生 要 求 他 计 
算出 一 个 空 灯泡 壳 的 容积 。 在 使 用 测 径 仪 和 微 积 分 进行 数 小 时 的 计算 
后 ， 这 个 新 员工 给 出 了 自己 的 答案 一 150 cm? 。 而 爱迪生 在 几 秒 钟 之 
内 就 计算 完毕 并 给 出 了 结果 “更 接近 155”。 他 是 如 何 实现 的 呢 ? 

2.7 深入 阅读 

8.8 廊 列 出 了 算法 方面 的 儿 本 好 书 。 


2.8 变 位 词 程序 的 实现 (边栏 ) 
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我 的 变 位 词 程序 按 三 个 阶段 的 “管道 "组织 ， 其 中 一 个 程序 的 输出 
文件 作为 下 一 个 程序 的 输入 文件 。 第 一 个 程序 标识 单词 ， 第 二 个 程序 
排序 标识 后 的 文件 ， 而 第 三 个 程序 将 这 些 单词 压缩 为 每 个 变 位 词类 一 
行 的 形式 。 下 面 是 一 个 仅 有 6 个 单词 的 字典 的 处 理 过 程 。 


pans anps pans anps pans 
= ane ny pans sap 
°P pep sort eer opt 
snap anps snap opst pots 

pots stop tops 
stop opst stop opst stop 
tops opst tops opst tops 


输出 包括 三 个 变 位 词类 。 

下 面 的 C 语 言 sign 程 序 假定 没有 超过 100 个 字母 的 单词 ， 并 且 输 入 文 
件 仅 包含 小 写字 母 和 换行 符 。 (因此 我 使 用 了 一 个 一 行 的 命令 对 字 — 典 
进行 预 处 理 ， 将 其 中 的 大 写字 母 改 为 小 写字 和 母 。) 

int charcomp(char *x,char *y) { return *x - *y;} 

#define WORDMAX 100 


int main(void) 
{ char word[(WORDMAX],sigi}WORDMAX]; 
while (scanf("%s",word) !=EOF) { 
strcpy(sig,word); 
qsort(sig,strlen(sig),sizeof(char),charcomp); 
printf("%s %s\n",sig, word); 
} 
return 0; 
} 
while 循 环 每 次 读 取 一 个 字符 串 到 word 中 ， 直 至 文件 末尾 为 止 。 
strcpy 函 数 复制 输入 单词 到 单词 sig 中 ， 然 后 调用 C 标 准 库 函数 qsort 对 单 
词 sig 中 的 字母 进行 排序 (参数 是 竺 排序 的 数组 、 数 组 的 长 度 、 每 个 待 
排序 项 的 字 节 数 以 及 比较 两 个 项 的 钞 数 名 。 在 本 例 中 ， 得 比较 项 为 单 
词 中 的 字母 ) 。 最 后 ，printf 语 句 依次 打印 标识 、 单 词 本 身 和 换行 符 。 
系统 sort 程 序 将 所 有 具有 相同 标识 的 单词 归 拢 到 一 起 。squash 程 序 
在 同一 行 中 将 其 打印 出 来 。 
int main(void) 
{ char word[/WORDMAX],sig]: WORDMAX],oldsigl( WORDMAX]; 


int linenum = 0; 


strcpy(oldsig,""); 
while (scanf("%s %s",sig,word) != EOF) { 
if (stremp(oldsig,sig) !=0 && linenum >0) 
printf("\n"); 
strcpy(oldsig,sig); 
linenum++; 


printf(""%s ",word); 


printf("\n"); 
return 0; 

} 

大 部 分 工作 都 是 使 用 第 二 个 printf 语 句 来 完成 的 。 对 每 一 个 输入 
行 ， 该 语句 输出 第 二 个 字段 ， 后 面 跟 一 个 空格 。 半 语句 捕捉 标识 之 间 的 
其 异 。 如 果 sig 与 oldsig (其 上 一 次 的 值 ) 不 同 ， 那 么 就 打印 换行 符 (OC 
件 中 的 第 一 条 记录 除外 ) 。 最 后 一 个 printf 输 出 最 后 一 个 换行 行 。 

在 使 用 小 输入 文件 对 这 些 简单 部 分 进行 测试 后 ， 我 通过 下 面 的 命 
令 构建 了 变 位 词 列表 : 

sign <dictionary | sort | squash >gramlist 

该 命令 将 文件 dictionary 输 入 到 程序 sign， 连 接 sign 的 输出 至 sort， 
连接 sort 的 输出 至 squash， 并 将 squash 的 输出 写 入 文件 gramlist。 程 序 的 
运行 时 间 为 18 秒 : sign 用 时 4 秒 、sort 用 时 11 秒 而 squash 用 时 3 秒 。 

我 在 一 个 包含 230 000 个 单词 的 字典 上 运行 了 该 程序 。 然 而 ， 不 包 
括 众 多 的 -s: 和 -ed 后 级 。 以 下 是 一 些 很 有 趣 的 变 位 词类 。 

subessential suitableness 

canter creant cretan nectar recant tanrec trance 

caret carte cater crate creat creta react recta trace 

destain instead sainted satined 

adroitly dilatory idolatry 

least setal slate stale steal stela tales 

reins resin rinse risen serin siren 


constitutionalism misconstitutional 
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多 数 程序 员 都 接触 过 这 样 的 程序 ， 即 使 是 优秀 程序 员 多 数 也 都 至 
少 编 写 过 一 个 这 样 的 程序 : 庞大 、 混 乱 、 丑 陋 的 程序 ， 而 它们 本 应 该 
可 以 写 得 短小 、 清 晰 、 漂 亮 。 我 曾经 见 过 几 个 程序 ， 本 质 上 它们 就 相 
当 于 如 下 代码 : 

if (k == 1) c001++ 

if (k == 2) c002++ 


if (k == 500) c500++ 

虽然 这 些 程序 确实 也 完成 了 稍微 复杂 一 些 的 任务 ， 但 是 基本 上 可 
以 认为 它们 的 作用 只 是 数 了 数 文件 中 1 一 500 每 个 整数 出 现 的 次 数 。 
个 程序 的 代码 都 超过 了 1 000 行 。 今 天 的 程序 员 多 数 都 会 立即 意识 到 ， 
自己 可 以 编写 一 个 长 度 仅 为 其 零头 的 程序 来 完成 该 任务 ， 方 法 就 是 使 
用 一 种 不 同 的 数据 结构 一 一 一 个 有 500 个 元 素 的 数组 来 代替 500 个 独立 
的 变量 。 

因此 ， 本 章 标 题 的 完整 意义 是 : 恰当 的 数据 视图 实际 上 决定 了 程 
序 的 结构 。 本 章 描述 了 多 种 不 同 的 程序 ， 这 些 程序 都 可 以 通过 重新 组 
织 内 部 数据 而 变 得 更 小 (并 且 更 好 ) 。 


3.1 一 个 调查 程序 


下 面 要 研究 的 这 个 程序 统计 了 某 个 学 院 的 学 生 所 填写 的 近 2 万 份 调 
查 表 。 其 部 分 输出 如 下 所 示 : 


US Perm Temp 


Total Citi Visa es Male Female 
African American 1 289 1 239 af 2 684 593 
Mexican American 675 577 80 1 448 219 
Native American 198 182 5 3 132 64 
Spanish Surname 411 223 152 20 224 179 
Asian American 519 312 152 41 247 270 
Caucasian 6: 272 IS 663 355 33 9 367 6 836 
Other 225 123 78 19 129 92 
Totals 19 589 18 319 839 129 tL 62371 8 253 


因为 一 些 人 没有 回答 全 部 问题 ， 所 以 每 个 族 裔 组 的 男女 人 数 之 和 
比 总 人 数 略 少 。 实 际 的 输出 则 更 为 复杂 。 上 面 给 出 了 全 部 的 七 行 以 及 
总 数 行 ， 但 仅 有 6 列 ， 分 别 代 表 总 人 数 和 另外 两 个 大 类 : 身份 状态 和 性 
别 。 在 实际 问题 中 ， 共 有 25 列 分 别 代表 8 个 大 类 ， 以 及 3 页 相似 的 输 
出 : 两 页 分 别 代表 两 个 独立 的 学 院 ， 而 男 一 页 为 这 两 者 的 总 和 。 此 
外 ， 还 需要 打印 其 他 一 些 密切 相关 的 表 ， 例 如 拒绝 回答 每 个 问题 的 学 
生 的 数目 。 每 份 调查 表 使 用 一 条 记录 来 表示 。 在 每 条 记录 中 ， 项 0 为 族 
裔 组 ， 编 码 为 0 一 7 的 整数 〈 分 别 对 应 每 一 个 族 裔 和 “拒绝 回答 >) ， 项 1 
为 学 院 〈 编 码 为 0 一 2 的 整数 ) ， 项 2 为 身份 状态 ， 依 此 类 推 ， 直 到 项 
Bo 

程序 员 按 照 该 系统 分 析 员 提供 的 高 层 设计 来 编写 程序 。 在 努力 工 
作 了 两 个 月 并 完成 了 1000 行 代码 以 后 ， 程 序 员 估计 自己 才 完成 了 一 半 
的 工作 量 。 在 阅读 了 原始 设计 之 后 ， 我 理解 了 该 程序 员 的 困境 : 程序 
使 用 350 个 不 同 的 变量 来 实现 -25 列 乘 以 7 行 ， 再 乘 以 2 页 。 完 成 变量 
声明 之 后 ， 程 序 采 用 一 系列 的 舱 套 逻辑 来 判定 在 读 入 每 条 记录 时 ， 应 
该 增加 哪个 变量 。 请 用 几 分 钟 的 时 间 思 考 一 下 这 个 问题 ， 看 看 你 会 如 
何 实 现 。 

关键 的 决定 是 应 当 使 用 数组 来 存储 这 些 数 。 作 下 一 个 决定 则 更 
ME: 该 数组 应 该 按照 其 输出 的 结构 〈 学 院 、 族 裔 组 和 25 列 ) 来 组 织 ， 


还 是 应 该 按照 其 数据 输入 的 结构 (学院 、 族 裔 组 、 大 类 和 大 类 中 的 数 
值 ) 来 组 织 ? 忽略 学 院 信 息 ， 上 壕 方 法 可 以 表示 如 下 : 


这 两 种 方法 都 可 行 。 我 编写 的 程序 中 所 使 用 的 三 维 视图 ( 左 ) 方 
法 在 数据 读 取 的 时 候 需 要 完成 的 工作 量 稍 多 些 ， 而 在 输出 时 需要 完成 
的 工作 量 稍 少 些 。 程 序 由 150 行 代码 组 成 : 80 行 构建 该 表 ，30 行 产生 前 
述 的 输出 ，40 行 用 来 产生 其 他 的 表 。 

上 述 的 计数 程序 和 调查 程序 都 过 于 庞大 。 两 者 都 包含 大 量 的 用 一 
个 数组 就 可 以 代替 的 变量 。 将 代码 的 长 度 减 少 一 个 数量 级 不 仅 可 以 得 
到 开发 周期 更 短 的 正确 程序 ， 而 且 更 易于 测试 和 维护 。 虽 然 在 这 两 个 
应 用 中 差别 不 是 很 大 ， 但 是 ， 这 两 个 小 程序 在 运行 时 间 和 存储 空间 上 
还 是 会 比 大 程序 更 高 效 。 

在 小 程序 可 以 完成 任务 的 情况 下 ， 为 什么 程序 员 非 要 编写 大 程序 
Ne? 一 个 原因 是 他 们 缺少 在 2.5 世 中 所 到 的 重要 的 惰性。 他 们 和 急于 完成 
其 最 初 的 想法 。 在 前 面 描述 的 两 个 问题 中 ， 有 更 深层 次 的 原因 : 程序 
员 在 考虑 该 问题 时 受到 了 语言 的 限制 。 在 他 们 所 用 的 编程 语言 中 ， 数 
组 通常 是 固定 的 表格 ， 并 且 必 须 在 程序 开始 的 时 候 初 始 化 ， 此 后 不 能 
再 改变 。 在 1.7 市 提 到 的 James Adams 的 书 中 ， 他 会 说 程序 员 遇 到 了 *“ 概 
念 壁 垒 "， 阻 碍 了 计数 融 动 态 数 组 的 使 用 。 


导致 程序 员 犯 这 类 错误 的 原因 还 有 很 多 。 在 准备 编写 这 一 章 内 容 
时 ， 我 在 自己 的 调查 程序 中 发 现 了 一 个 类 似 的 例子 。 程 序 的 主 输入 循 
环 由 8 个 5 条 语句 的 块 构 成 ， 共 计 40 行 代码 。 前 两 个 语句 块 可 以 表示 如 
下 

ethnicgroup = entry[0] 


campus = entry[1] 
if entry[2] == refused 
declined[ethnicgroup,2]++ 
else 
j=1+ entry[2] 
count[campus, ethnicgroup,j]++ 
if entry[3] == refused 
declined[ethnicgroup,3]++ 
else 
j=4 + entry[3] 
count[campus, ethnicgroup,j]++ 
将 数组 offset 初 始 化 为 0.0,14,6,… 以 后 ， 我 使 用 6 行 代码 取代 了 原来 
的 40 行 代码 。 
for i = [2,8] 
if entry[i] == refused 
declined[ethnicgroup,i]++ 
else 
j = offset[i] + entry[i] 
count[campus,ethnicgroup,j]++ 
我 对 代码 长 度 减 少 了 一 个 数量 级 太 满意 了 ， 结 有 果 和 忽视 了 男 一 个 就 
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3.2 格式 信 画 编程 
在 常 去 的 网 店 键入 你 的 名 字 和 密码 并 成 功 登 录 以 后 ， 弹 出 的 下 一 


页 网 页 类 似 这 样 : 


Welcome back,Jane! 

We hope that you and all the members 

of the Public family are constantly 

reminding your neighbors there 

on Maple Street to shop with us. 

AS usual,we will ship your order to Ms.Jane Q.public 
600 Maple Street 
Your Town,lowa 12345 


作为 程序 员 ， 你 会 意识 到 隐藏 在 这 一 幕 之 后 所 发 生 的 事情 一 一 计 


算 机 在 数据 库 中 查找 你 的 用 户 名 并 返回 如 下 所 示 的 字段 : 


呢 ? 


Public|Jane|Q|Ms.|600|Maple Street|Your TIown|Iowal12345 
但 是 ， 程 序 如 何 依据 你 的 个 人 数据 库 记 录 来 构建 这 个 定制 的 网 页 
急躁 的 程序 员 可 能 会 试图 按照 下 面 所 示 的 方式 开始 编写 程序 : 


read lastname,firstname,init,title, streetnum,streetname,tomn, state,zip 


wy 


print "Welcome back,",firstname, 
print "We hope that you and all the members" 
print "of the",lastname,"family are constantly" 
print "reminding your neighbous there" 

print "on",streetname,"to shop with us." 

print "As usual,we will ship your order to" 


print " ",title,firstname,init ".",lastname 


Wo 


print »streetnum,streethame 


下 LLES i 


print " ",town ",",state,zip 

这 样 的 程序 很 有 诱惑 性 ， 但 是 也 很 乏味 。 

一 个 更 巧妙 的 方法 是 编写 一 个 格式 信函 发 生 器 (form letter 
generator) 。 该 发 生 器 基于 下 面 所 示 的 格式 信函 模板 (form letter 
schema) : 

Welcome back,$1! 

We hope that you and all the members of the $0 family are constantly 


reminding your neighbors there 

on $5 to shop with us. 

As usual,we will ship your order to$3 $1 $2.$0 
$4 $5 
$6,57 $8 
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用 下 面 的 伪 代 码 来 解释 。 在 伪 代 码 中 ， 文 字符 号 $ 在 输入 模板 中 记 为 
$$ ° 
read fields from database 
loop from start to end of schema 
c = next character in schema 
if c ! ='$' 
printchar c 
else 
c = next character in schema 
case c of 
'$': printchar '$' 
'0' - '9': printstring field[c] 


default: error("bad schema") 
在 程序 中 ， 该 模板 使 用 一 个 长 字符 串 数组 表示 。 数 组 中 的 文本 行 
以 换行 符 结 束 。 (Perl 和 其 他 脚本 语言 使 其 更 容易 实现 。 可 以 使 用 形 如 


E, 


$lastname 的 变量 。) 

编写 该 发 生 器 和 模板 程序 比 编写 显而易见 的 程序 要 简单 些 。 将 数 
据 从 控制 中 分 离 会 获得 许多 好 处 : 如 果 重 新 设计 信函 ， 那 么 模板 可 以 
使 用 文本 编辑 器 来 修改 ， 从 而 第 二 个 特定 页 的 准备 会 很 简单 。 

报表 模板 的 概念 曾 极 大 地 简化 了 我 维护 过 的 一 个 5 300 行 代码 的 
Cobol 程 序 。 程 序 的 输入 是 家 庭 财务 状况 的 描述 ， 其 输出 是 一 个 小 册 
T, 总 结 了 财务 现状 并 推荐 未 来 理财 策略 。 这 里 是 一 些 相关 数值 : 120 
个 输入 字段 、18 页 上 的 400 行 输出 语句 、300 行 用 来 清除 输入 数据 的 代 
码 、800 行 用 于 计算 的 代码 以 及 4 200 行 用 于 输出 的 代码 。 据 我 估算 : 4 
200 行 的 输出 代码 可 以 使 用 一 个 最 多 几 十 行 代码 的 解释 程序 和 一 个 400 
行 的 模板 来 代 蔡 ， 而 代码 的 计算 部 分 保持 不 变 。 按 这 种 形式 编写 原始 
程序 所 得 到 的 Cobol 代 码 的 长 度 至 多 为 原来 的 三 分 之 一 ， 并 且 维 护 起 来 
也 容易 得 多 。 


3.3 一 组 示例 


KE o RERA Visual Basic 程 序 的 用 户 可 以 通过 点 击 菜 单项 来 
实现 在 几 个 选项 之 间 的 选择 。 我 浏览 了 一 系列 的 优秀 示例 程序 ， 发 现 
了 一 个 允许 用 户 在 选项 中 进行 八 选 一 操作 的 程序 。 查 看 该 菜单 对 应 的 
代码 ， 得 到 如 下 所 示 的 选项 0 的 代码 : 

sub menuitem0_click() 

menuitem0.checked = 1 
menuitem1.checked = 0 


menuitem2.checked = 0 


menuitem3.checked = 0 
menuitem4.checked = 0 
menuitem5.checked = 0 
menuitem6.checked = 0 
menuitem7.checked = 0 
选项 1 的 代码 几乎 是 一 样 的 ， 相 异 的 部 分 如 下 : 
sub menuitem1_click() 
menuitem0.checked = 0 


menuitem1.checked = 1 
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计 需 要 大 约 100 行 代码 。 

我 自己 编写 的 程序 也 与 之 相似 。 我 从 有 两 个 选项 的 菜单 着 手 编 
程 ， 此 时 的 代码 是 合理 的 。 当 我 添加 第 三 个 、 第 四 个 和 后 续 的 选项 
上 时， 我 为 代码 所 具有 的 功能 而 倍 感 兴奋 ， 以 至 于 没 能 停 下 来 去 整理 混 
乱 的 代码 。 

稍 作 观 察 以 后 ， 可 以 将 大 部 分 代码 转化 为 一 个 函数 uncheckall， 该 
函数 将 每 个 checked 字 段 置 0。 于 是 第 一 个 函数 变 成 : 


sub menuitemO0_click() 


uncheckall 
menuitem0.checked = 1 
但 是 ， 此 时 的 代码 中 还 是 有 7 个 相似 的 函数 。 
亚运 的 是 ，Visual Basic 文 持 沫 单 选项 数组 。 因 此 可 以 将 8 个 相似 的 
函数 使 用 一 个 函数 表示 : 
sub menuitem_click(int choice) 
for i = [0,numchoices) 


menuitem|i].checked = 0 


menuitem[choice].checked = 1 

将 重复 的 代码 使 用 通用 的 函数 表示 ， 使 程序 由 100 行 减少 至 25 行 ， 
而 数组 的 恰当 使 用 又 使 代码 减 至 4 行 。 生 加 下 一 个 选择 也 更 容易 ， 并 且 
可 能 存在 错误 的 程序 现在 犹如 水 品 一般 唱 至 剔透 。 该 方法 仅仅 使 用 了 
儿 行 代码 就 解决 了 我 的 问题 。 

出 错 信息 。 混 乱 系统 的 数 百 个 出 错 信息 散布 在 所 有 代码 中 。 同 
时 ， 这 些 出 错 信 息 又 与 其 他 输出 语句 混杂 在 一 起 。 而 清晰 系统 则 通过 
一 个 专用 函数 来 访问 这 些 出 错 信 息 。 考 虑 一 下 分 别 使 用 “混乱 ”和 “清晰 ” 
两 种 组 织 形式 来 实现 下 面 这 种 需求 的 难度 : 产生 所 有 可 能 的 出 错 信 息 
列表 ， 使 每 个 “严重 ”出 错 信息 产生 一 声 报警 并 将 出 错 信息 翻译 成 法 语 
或 德语 。 

日 期 画 数 。 给 定年 份 和 该 年 中 的 某 一 天 ， 返 回 该 天 所 处 的 月 份 和 
月 中 的 日 子 。 例 如 ，2004 年 的 第 61 天 是 3 月 1 日 。 在 其 Elements of 
Programming Style 中 ，Kernighan 和 Plauger 给 出 了 一 个 直接 从 他 人 的 程 
序 中 摘录 出 来 的 实现 该 任务 的 55 行 程序 。 随 后 ， 他 们 用 一 个 5 行 的 程序 
解决 了 该 问题 ， 该 程序 用 到 了 一 个 有 26 个 整数 的 数组 。 习 题 4 介 绍 了 关 
于 日 期 函数 表示 的 问题 。 

单词 分 析 。 许 多 计算 问题 都 是 由 英文 单词 的 分 析 引 起 的 。 在 13.8 市 
将 会 看 到 拼写 检查 器 如 何 使 用 “后 级 去 除 * 来 精简 字典 ， 例如 单词 
“laugh” 就 不 存储 其 所 有 的 不 同 结尾 (“-ing”、“-s”、“-ed” 等 ) 。 语 言 学 
家 们 已 经 得 出 了 对 应 这 些 任务 的 一 系列 法 则 。1973 年 ，Doug Mcllroy 在 
编写 他 的 第 一 个 实时 文本 语音 合成 器 的 时 候 ， 就 知道 代码 并 不 适合 
示 这 些 法 则 。 他 更 愿意 使 用 1000 行 代码 和 一 个 400 行 的 表 来 实现 。 有 人 
尝试 在 不 增加 表 的 情况 下 修改 程序 ， 其 结果 是 增加 20% 的 内 容 就 需要 
增加 2 500 行 额外 的 代码 。Mcllroy 声 称 他 现在 可 以 通过 增加 更 多 的 表 ， 
使 用 少 于 1 000 行 的 代码 来 完成 该 扩充 任务 。 需 要 自己 尝试 一 下 类 似 的 
法 则 集 的 话 ， 见 习题 5。 


3.4 结构 化 数据 


什么 才 是 结构 清晰 的 数据 ? 随 着 时 间 的 推移 ， 其 标准 也 在 逐步 提 
高 。 早 些 年 ， 结 构 化 数据 就 意味 着 选择 恰当 的 变量 名 。 后 来 ， 在 程序 
员 使 用 平行 数组 (parallel array) [15] 或 寄存 器 偏 移 量 的 地 方 ， 编 程 语 
言 加 入 了 记录 或 结构 以 及 指向 它们 的 指针 。 我 们 学 会 了 使 用 名 为 insert 
或 search 的 函数 来 代替 处 理 数据 的 代码 ， 这 有 助 于 在 改变 数据 的 表达 方 
式 时 不 损坏 程序 的 其 他 部 分 。David Parnas [16] 对 这 种 方法 进行 了 扩 
展 ， 他 发 现 对 系统 待 处 理 数据 进行 研究 可 以 深入 认识 到 优秀 的 模块 化 
结构 。 

下 一 步 是 “面向 对 象 编程 ”。 程 序 员 们 学 会 识别 设计 中 的 基本 对 
象 ， 向 外 公开 一 个 抽象 的 对 象 及 其 基本 操作 ， 并 隐藏 具体 的 实现 细 
T o (EHU Smalltalk 和 C++ 的 编程 语言 ， 可 以 将 这 些 对 象 封装 在 类 
中 。 在 第 13 章 中 ， 我 们 在 研究 集合 的 抽象 和 实现 时 会 仔细 人 研究 这 种 方 
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3.5 用 于 特殊 数据 的 强大 工具 


曾几何时 ， 程 序 员 需要 从 头 开 始 编写 每 个 应 用 程序 。 现 代 工 具 人 允 
许 程序 员 (以 及 其 他 人 员 ) 花费 最 少 的 精力 来 编写 应 用 程序 。 本 市 所 
列 出 的 一 些 工 具 仅 为 示范 性 的 ， 并 不 完备 。 每 种 工具 都 使 用 数据 的 某 
一 视图 来 解决 特定 但 又 通用 的 问题 。 诸 如 Visual Basic、Tal 等 语言 和 各 
种 shell 都 提供 了 连接 这 些 对 象 的 “胶水 ”。 

超 文 本 。 在 20 世 纪 90 年 代 早 期 ， 网 站 的 数量 还 只 有 数 千 个 的 时 
候 ， 我 所 阅读 的 入 门 参考 书 都 是 存储 在 CD-ROM 上 面 的 。 那 些 资 料 令 
ARERI, CHAREE ` FA ` ER ` EASE rA ` 
教科 书 、 系 统 参 考 手 册 等 ， 所 有 这 些 资料 都 可 以 放 在 我 的 手掌 心里 。 
不 笠 的 是 ， 不 同人 资料 集 的 用 户 界 面 也 是 一 样 地 令 人 头 军 目 脱 : 每 个 程 


序 都 有 其 特别 之 处 。 现 在 我 可 以 轻松 地 访问 所 有 CD 上 的 或 网 上 的 数据 
(甚至 更 多 ) ， 而 我 所 用 的 界面 通常 就 是 网 页 浏览 器 。 这 使 用 户 和 开 
发 人 员 虱 轻松 多 了 。 
名 字 一 值 对 。 书 目 数 据 库 中 的 项 可 能 如 下 所 示 : 


%title The C++ Programming Language, Third Edition 
% author Bjarne Stroustrup 

%city Reading, Massachusetts 

%yesr 1997 


%publisher Addison-Wesley 
Visual Basic 使 用 这 种 方法 描述 界面 的 控件 。 窗 体 左上 角 的 文本 框 
可 以 使 用 如 下 的 属性 (名字) 和 设置 (E) 来 描述 : 


Height 495 
Left 0 
Multiline False 
Name txtSample 
Top 0 
Visible True 
Width 213 


(完整 的 文本 框 包含 36 个 名 字 一 值 对 。) 例如 要 展 宽 文 本 框 时 ， 
可 以 使 用 鼠标 拖 动 右边 框 ， 或 者 输入 一 个 更 大 的 整数 来 替代 215， 或 者 
使 用 运行 时 赋值 语句 
txtSample.Width = 400 
程序 员 可 以 选择 最 方便 的 方式 来 操作 这 个 简单 但 功能 很 强大 的 结 
构 。 


电子 表格 。 搞 明白 本 部 门 的 预算 对 我 来 说 似乎 有 点 困难 。 习 惯 
上 ， 我 会 为 这 项 工作 编写 一 个 庞大 的 程序 ， 用 户 界 面 也 是 沉 问 生硬 
的 。 而 另 一 位 程序 员 从 一 个 更 广 的 视角 入 手 ， 采 用 电子 表格 实现 该 程 
序 ， 同 时 也 使 用 了 少量 的 Visual Basic 函 数 。 用 户 界 面 对 财 务 人 员 等 
要 用 户 来 说 很 熟悉 。 (如 果 今 天 我 还 需要 编写 大 学 调查 程序 ， 数 据 为 
数值 数组 的 这 个 事实 会 促使 我 尝试 将 数据 放 到 电子 表格 中 。) 

数据 库 。 多 年 以 前 ， 一 位 程序 员 在 纸 质 日 志 上 记录 了 他 最 初 的 十 
几 次 跳伞 的 详细 信息 以 后 ， 决 定 将 目 己 跳伞 数据 的 记录 目 动 化 。 青 早 
几 年 ， 记 录 这 样 的 数据 需要 使 用 复杂 的 记录 格式 ， 并 且 需 要 使 用 手工 
程序 (或 使 用 “报表 程序 发 生 器 *) 来 完成 数据 的 录入 、 更 新 和 提取 。 
当时 ， 该 程序 员 和 我 都 被 他 完成 该 工作 时 所 使 用 的 新 发 明 的 商业 数据 
库 震 惊 了 。 他 可 以 在 几 分 钟 之 内 完成 数据 库 操作 的 新 界面 ， 而 不 再 需 
要 几 天 的 时 间 。 

特定 领域 的 编程 语言 。 图 形 用 户 界面 (GUL 已 经 替代 了 许多 古老 
沉闷 的 文本 语言 。 但 是 特殊 用 途 的 编程 语言 在 某 些 应 用 程序 中 依然 很 
有 效 。 当 需要 计算 数据 时 ， 我 并 不 喜欢 使 用 女 标 在 屏幕 上 点 击 一 个 虚 
拟 的 计算 器 ， 而 是 倾向 于 采用 如 下 所 示 的 方式 直接 输入 数学 公式 : 

n = 1000000 

47 * n * log(n)/log(2) 

相 比 于 用 炫丽 的 文本 框 和 操作 按钮 组 合 来 定义 一 个 查询 ， 我 更 倾 
向 于 用 下 面 这 样 的 语言 来 写 : 

(design or architecture) and not building 

以 前 使 用 数 百 行 可 执行 代码 来 定义 的 窗口 ， 现 在 可 以 使 用 数 十 行 
HTML 代码 来 定义 。 这 些 语 言 对 一 般 的 用 户 输入 来 说 可 能 不 够 时 尚 了 ， 
但 是 在 某 些 应 用 场合 它们 依然 是 有 效 的 工具 。 


3.6 原理 


虽然 本 章 中 的 故事 横 跨 数 十 年 并 涉及 多 种 编程 语言 ， 但 是 每 个 故 
事 的 精髓 都 是 一 致 的 :“ 能 用 小 程序 实现 的 ， 束 不 要 编写 大 程序 ”。 许 
多 结构 都 见证 了 Polya 在 How to Solve It [17] 一 书 中 提 到 的 发 明 家 悖 论 : 
“更 一 般 性 的 问题 也 许 更 容易 解决 "*。 对 于 程序 设计 来 说 ， 这 意味 着 直 
接 编 写 解决 23 种 情况 的 问题 很 困难 ;而 编写 一 个 处 理 n 种 情况 的 通用 程 
序 ， 再 令 n=23 来 得 到 最 终结 果 ， 却 相对 要 容易 一 些 。 

本 章 集 中 讨论 了 数据 结构 对 软件 的 一 个 贡献 : 将 大 程序 缩减 为 小 
程序 。 数 据 结构 设计 还 有 许多 其 他 正面 影响 ， 包 括 节 省 时 间 和 空间 、 
提高 可 移植 性 和 可 维护 性 。Fred Brooks [18] 在 《人 月 神话 》 第 9 章 中 
的 评论 就 是 针对 节省 空间 的 。 而 对 于 想 要 获得 其 他 属性 的 程序 员 来 
说 ， 下 面 的 建议 可 谓 金 玉 良 言 : 

程序 员 在 节省 空间 方面 无 计 可 施 时 ， 将 自己 从 代码 中 解脱 出 来 ， 
退回 起 点 并 集中 心力 研究 数据 ， 和 常常 能 有 奇效 。 (数据 的 ) 表示 形式 
是 程序 设计 的 根本 。 

下 面 是 退回 起 点 进行 思考 时 的 几 条 原则 。 

使 用 数组 重新 编写 重复 代码 。 克 长 的 相似 代码 常常 可 以 使 用 最 简 
单 的 数据 结构 一 数组 来 更 好 地 表述 。 

封装 复杂 结构 。 当 需要 非常 复杂 的 数据 结构 时 ， 使 用 抽象 术语 进 
行 定 义 ， 并 将 操作 表示 为 类 。 

尽 可 能 使 用 高 级 工具 。 超 文本 、 名 字 一 值 对 、 电 子 表格 、 数 据 
库 、 编 程 语言 等 都 是 特定 问题 领域 中 的 强大 的 工具 。 

从 数据 得 出 程序 的 结构 。 本 划 的 主题 束 是 :通过 使 用 恰当 的 数据 
结构 来 奉 代 复杂 的 代码 ， 从 数据 可 以 得 出 程序 的 结构 。 万 变 不 离 其 
a: 在 动手 编写 代码 之 前 ， 优 秀 的 程序 员 会 彻底 理解 输入 、 输 出 和 中 
间 数 据 结构 ， 并 围绕 这 些 结构 创建 程序 。 


3.7 习题 


1. 本 书 行将 出 版 之 时 ， 美 国 的 个 人 收入 所 得 税 分 为 5 种 不 同 的 税 
率 ， 其 中 最 大 的 税率 大 约 为 40%。 以 前 的 情况 则 更 为 复杂 ， 和 税率 也 更 
高 。 下 面 所 示 的 程序 文本 采用 25 个 if 语句 的 合理 方法 来 计算 1978 年 的 美 
国联 邦 所 得 税 。 税 率 序 列 为 0.14，0.15， 0.16，0.17，0.18，...。 序 列 
中 此 后 的 增幅 大 于 0.01。 有 何 建议 呢 ? 


if income <= 2200 


tax = 0 
else if income < 2700 

tax =.14 * (income - 2200) 
else if income <= 3200 

tax = 70 +.15 * (income - 2700) 
else if income <= 3700 

tax = 145 +.16 * (income - 3200) 
else if income <= 4200 


tax = 225 +.17 * (income - 3700) 


else 
tax = 53090 +.70 * (income - 102200) 
2.k 阶 常 系数 线性 递归 定义 的 级 数 如 下 : 
an=C1 a 1T+c an 2 +...+Ck ap, Ty 1, 

EHA, c, t 为 实数 。 编 写 一 个 程序 ， 其 输入 为 kjal ,ak ,Ci 
.5CKk+1 Fim, 输出 为 ai Ban © 

该 程序 与 计算 一 个 具体 的 15 阶 递归 的 程序 相 比 会 复杂 多 少 ? 不 使 
用 数组 又 如 何 实现 呢 ? 

3. 编 写 一 个 “banner 函数 ， 该 函数 的 输入 为 大 写字 母 ， 输 出 为 一 
字符 数组 ， 该 数 组 以 图 形 化 的 方式 表示 该 字母 。 


4. 编 写 处 理 如 下 日 期 问题 的 函数 : 给 定 两 个 日 期 ， 计 算 两 者 之 间 的 
天 数 ; 给 定 一 个 日 期 ， 返 回 值 为 周 几 ; 给 定 月 和 年 ， 使 用 字符 数组 生 
成 该 月 的 日 历 。 

5. 本 习题 处 理 英语 中 的 一 小 部 分 连 字符 问题 。 下 面 所 示 的 规则 搬 述 
了 以 字母 “c" 结 尾 的 单词 的 一 些 合法 的 连 字符 现象 : 

et-ic al-is-tic s-tic p-tic -lyt-ic ot-ic an-tic n-tic c-tic at-ic h-nic n-ic m-ic 
l-lic b-lic -clic l-ic h-ic f-ic d-ic -bic a-ic -mac i-ac 

规则 的 应 用 必须 按照 上 述 顺 序 进行 ， 因 此 ， 有 连 字 符 “eth-nic”( 由 
规则 “h-nic” 捕 获 ) 和 “clin-ic”( 前 一 测试 失败 ， 然 后 满足 “mh-ic”) 。 如 何 
用 函数 来 表达 该 规则 ? 要求 函数 的 输入 为 单词 ， 返 回 值 必须 是 后 绥 连 
字符 。 

6. 编 写 一 个 “格式 信 贺 发 生 器 ”， 使 之 可 以 通过 数据 库 中 的 每 条 记录 
来 生成 定制 的 文档 (这 常常 称 为 “邮件 归并 ”特性 ) 。 设 计 简 短 的 模板 
和 输入 文件 来 测试 程序 的 正确 性 。 

7. 和 见 的 字典 允许 用 户 碍 找 单词 的 定义 。 习 题 2.1 描 述 了 人 允许 用 户 
查找 变 位 词 的 字典 。 设 计 和 查找 单词 正确 拼写 的 字典 和 查找 和 单词 的 押韵 
词 的 字典 。 讨 论 具 有 以 下 功能 的 字典 : 查找 整数 序列 CMO, 1, 1, 
2, 3, 5, 8, 13, 21, ...) 、 化 学 结构 或 者 歌曲 韵律 结构 。 

8.[S.C.Johnson] 七 段 显 示 设 备 实现 了 十 进 制 数字 : 


和 }?d456 HS 


的 廉价 显示 。 七 段 显 示 通 常 如 下 编号 : 


5 [6 
_o 


编写 一 个 使 用 5 个 七 段 显示 数字 来 显示 16 位 正 整数 的 程序 。 输 出 为 
TTF TBA, SAMS OAR RR, Pie 
1° 


3.8 深入 阅读 


数据 可 以 结构 化 程序 ， 但 是 只 有 聪明 的 程序 员 才 能 结构 化 大 型 软 
件 系 统 。Steve McConnell [19] 的 《代码 大 全 》 由 微软 出 版 社 于 1993 年 
出 版 ， 其 副标题 A Practical Handbook of Software Construction 精 确 地 摘 
述 了 这 部 860 页 著作 的 内 容 。 该 书 是 程序 员 智 慧 结 品 的 捷径 。 

该 书 的 第 8 章 至 第 12 章 都 与 本 章 密切 相关 ， 都 讨论 有 关 “ 数 据 ” 的 话 
题 。MCcConnell 从 诸如 数据 声明 和 选择 数据 名 称 等 基本 内 容 开 始 ， 进 而 
讨论 高 级 的 主题 ， 例 如 表 驱 动 程序 和 抽象 数据 类 型 。 其 第 4 草 至 第 7 章 
详细 描述 的 关于 “设计 ”的 主题 与 本 章 一 致 。 

从 开发 有 趣 的 小 函数 到 管理 大 的 软件 项 目 ， 开 发 软件 项 目 所 需要 
的 知识 面 很 广 。 尤 其 在 与 他 的 Rapid Development [20] (微软 出 版 社 
1996 年 出 版 ) 和 Software Project Survival Guide [21] (微软 出 版 社 1998 
年 出 版 ) 结合 起 来 的 时 候 ，McConnell 的 工作 覆盖 了 这 两 个 极端 以 及 大 
部 分 的 中 间 地 市 。McConnell 的 书 读 起 来 很 风趣 ， 但 永远 不 要 和 走 记 ， 他 
所 说 的 都 是 来 之 不 易 的 杀身 体会 。 


第 4 章 编写 正确 的 程序 


20 世 纪 60 年 代 末 ， 人 们 就 在 讨论 验证 其 他 程序 正确 性 的 那些 验证 
程序 的 前 景 了 。 不 幸 的 是 ， 到 今天 这 几 十 年 间 ， 除 了 屈指 可 数 的 几 个 
例外 ， 自 动 验证 系统 依然 还 是 纸上谈兵 。 尽 管 以 前 的 预期 落空 了 ， 对 
程序 验证 所 进行 的 研究 还 是 给 我 们 提供 了 很 有 价值 的 东西 一 一 对 计算 
机 编程 的 基本 理解 ， 这 比 一 个 否 入 程序 ， 然 后 内 现 “ 好 ”或 “ 坏 ” 的 黑匣子 
要 好 得 多 * 

本 章 的 目的 是 阐述 这 些 基 本 理解 如 何 帮 助 实际 程序 员 编 写 正确 的 
程序 。 一 位 读者 将 大 多 数 程序 员 习 以 为 党 的 方法 形象 地 归纳 为 “编写 代 
码 ， 然 后 丢 给 男 一 个 部 门 ， 由 QA (质量 保证 ) 或 QT (质量 测试 ) 来 
处 理 错误 ”。 本 章 描述 一 种 不 同 的 方法 。 在 开始 讨论 之 前 ， 我 们 必须 正 
确 地 认识 到 : 编程 技巧 仅仅 是 编写 正确 程序 的 很 小 一 部 分 ， 大 部 分 内 
容 还 是 前 面 三 章 讨 论 过 的 主题 : 问题 定义 、 算 法 设计 以 及 数据 结构 选 
择 。 如 果 这 些 步骤 都 完成 得 很 好 ， 那 么 编写 正确 的 程序 通常 是 很 容易 
的 。 


4.1 二 的 挑战 


即使 有 了 最 好 的 程序 设计 ， 程 序 员 也 常常 要 编写 巧妙 的 代码 。 本 
章 讨论 一 个 需要 特别 仔细 地 编写 代码 的 问题 ， 二 分 搜索 。 在 回顾 这 个 
问题 并 简介 其 算法 之 后 ， 我 们 将 使 用 验证 原则 来 编写 程序 。 

我 们 首次 遇 到 这 个 问题 是 在 2.2 节 。 我 们 需要 确定 排序 后 的 数组 
x[0..n- F EEES HLA to [22] 准确 地 说 ， 已 知 nz0 且 
x[0]<x[1]<x[2]<--+<x[n-1], 4 n=0 时 数组 为 空 *{t 与 xx 中 元 系 的 数据 类 
型 相同 。 无 论 是 整 型 、 浮 点 型 还 是 字符 串 型 ， 伪 代码 都 必须 同样 地 正 


确 运 行 。 答 案 存 储 在 整数 p 中 (记录 位 置 ) : 当 p 为 -1 时 ， 目 标 t 不 在 数 
组 x[0..n-1] 中 ; 否则 0<p<n-1， 且 t=x[p]。 

二 分 搜索 通过 持续 跟踪 数组 中 包含 元 素 t 的 范围 (如 果 t 存 在 于 数组 
的 话 ) 来 解决 问题 。 一 开始 ， 这 个 范围 是 整个 数组 ， 然 后 通过 将 {与 数 
组 的 中 间 项 进行 比较 并 抛弃 一 半 的 范围 来 缩小 范围 。 该 过 程 持 续 进 
行 ， 直 到 在 数组 中 找到 {t 或 确定 包含 { 的 拖 围 为 空 时 为 止 。 在 有 n 个 元 素 
的 表 中 ， 二 分 搜索 大 约 需 要 执行 log, n 次 比较 操作 。 

多 数 程序 员 都 认为 有 了 上 述 描述 在 手 ， 编 写 代码 是 轻而易举 的 
事 。 但 是 他 们 错 了 。 相 信 这 一 点 的 唯一 办 法 就 是 马上 放下 书 ， 然 后 日 
己 编 写 这 段 程序 。 试 试看 。 

我 在 给 专业 程序 员 上 课时 布置 过 该 问题 。 学 生 们 有 数 小 时 的 时 间 
将 上 面 的 描述 转换 成 程序 。 可 以 使 用 任何 一 种 编程 语言 ， 高 级 伪 代 码 
也 可 以 。 规 定 的 时 间 到 了 的 时 候 ， 几 乎 所 有 的 程序 员 都 报告 说 自己 完 
成 了 该 任务 的 正确 代码 。 然 后 ， 我 们 用 30 分 钟 时 间 来 检查 这 些 程序 员 
已 经 用 测试 实例 检验 过 了 的 代码 。 在 几 个 课堂 里 对 一 百 多 名 程序 员 的 
检查 结果 大 同 小 异 : 90% 的 程序 员 都 在 他 们 的 程序 中 发 现 了 错误 (并且 
我 不 相信 那些 没有 发 现 错误 的 程序 天 一 定 是 正确 的 ) 。 

BRE: 提供 充足 的 时 间 ， 竞 然 仅 有 约 10% 的 专业 程序 员 能 够 将 
这 个 小 程序 编写 正确 。 但 是 他 们 不 是 唯 批发 现 这 个 任务 困难 的 
人 : Knuth 在 其 The Art of Computer Programming,Volume 3: Sorting and 
Searching 的 6.2.1 世 的 历史 部 分 中 指出 ， 虽 然 第 一 篇 二 分 搜索 论文 在 
1946 年 就 发 表 了 ， 但 是 第 一 个 没有 错误 的 二 分 搜索 程序 却 直 到 1962 年 
才 出 现 。 


4.2 编写 程 


二 分 搜索 的 关键 思想 是 如 果 t 在 x[0..n-1] 中 ， 那 么 它 就 一 定 存 在 于 x 
的 某 个 特定 范围 之 内 。 这 里 使 用 mustbe(range) 来 表示 : 如 果 t 在 数组 
中 ， 那 么 它 一 定 在 range 中 。 使 用 这 个 定义 可 以 将 上 面 描述 的 二 分 搜索 
转换 成 下 面 的 程序 框架 : 
initialize range to 0..n-1 
loop 
{ invariant: mustbe(range) } 
if range is empty, 
break and report that t is not in the array compute m,the middle of 
the range 
use m as a probe to shrink the range 
if t is found during the shrinking process, 
break and report its position 
该 程序 的 最 重要 部 分 是 大 括号 内 的 循环 不 变 式 (loop invariant) 
之 所 以 把 这 种 关于 程序 状态 的 断言 (assertion) 称 为 不 变 式 
(invariant) ， 是 因为 在 每 次 循环 和 欠 代 之 前 和 之 后 ， 该 断言 都 为 真 。 这 
个 名 称 将 前 面 已 有 的 直观 概念 形式 化 了 。 
现在 进一步 完善 程序 ， 并 确保 所 有 的 操作 都 遵循 该 不 变 式 。 我 们 
面 对 的 第 一 个 问题 就 是 范围 (range) 的 表示 方式 : 这 里 使 用 两 个 下 标 ] 
Alu (对 应 下 限 lower 和 上 限 upper) 来 表示 范围 1.u。 (9.3 节 的 二 分 搜索 
函数 使 用 起 始 位置 和 长 度 来 表示 范围 ) 。 逮 辑 范 数 mustbe(Lu 是 说 : 如 
果 t 在 数组 中 ，t 就 一 定 在 (BKE) 范围 x0..u] 之 内 。 
下 一 步 的 工作 是 初始 化 。1 和 u 应 该 为 何 值 ， 才 能 使 mustbe(1,u) 为 
真 ? 显而易见 的 选择 是 0 和 n-1: mustbe(0,n-1) evi Rex, BAK 
一 定 在 x[0..n-1] 中 ; 而 这 恰好 就 是 我 们 在 程序 一 开始 就 知道 的 事实 。 于 
是 ， 和 初始 化 由 赋值 语句 ]=0 和 u=n-1 组 成 。 


下 一 步 的 任务 是 检查 空 范围 并 计算 新 的 中 间 点 m。 当 l]>u 时 范围 1.u 
为 空 ， 在 这 种 情况 下 ， 将 特殊 值 -1 赋 给 p 并 终止 循环 ， 程 序 如 下 : 
ifl>u 
p = -1; break 
break 语 句 终止 了 外 层 的 loop。 下 面 的 语句 计算 范围 的 中 间 点 mi: 
m=(1+u)/2 
“/" 运 算 符 实现 整数 除法 : 6/2 等 于 3，7/2 也 等 于 3。 至 此 ， 扩 展 的 程 
Fear: 
1=0;u=n-1 
loop 
{ invariant; mustbe(l,u) } 
ifl>u 
p=-1; break 
m=(l+u)/2 
use m as a probe to shrink the range l..u 
if t is found during the shrinking process,break and note its 
position 
为 了 完善 循环 体 中 的 后 三 行 ， 需 要 比较 t 和 x[m]， 并 采取 合适 的 操 
作 来 保持 不 变 式 成 立 。 因 此 代码 的 一 般 形式 为 : 


Case 


x[m] <t: action a 
x[m] == t: action b 
x[m] > t: action c 
对 于 操作 b， 由 于 t 在 位 置 m， 所 以 将 p 设 为 m 并 终止 循环 。 由 于 为 外 
两 种 情况 是 对 称 的 ， 这 里 集中 讨论 第 一 种 情况 并 认为 对 最 后 一 种 情况 
的 讨论 可 以 根据 对 称 性 得 到 (这 也 是 在 下 一 市 中 我 们 必须 精确 验证 代 
码 正确 性 的 一 部 分 原因 ) 。 


40 FR x[m]<t, 那么 x[0]<x[1]<...<x[m]<t。 因 此，t 不 可 能 存在 于 
x[0..m] 中 的 任何 位 置 。 将 该 结论 与 已 知 条 件 “ 不 在 x[1..u] 之 外 ” 相 结 合 ， 
可 知 t 一 定 在 x[m+1..d] 之 内 ， 记 为 mustbe(m+1,u)。 然 后 ， 通 过 将 1 设 为 
m+1 可 以 再 次 确立 不 变 式 mustbe(1,u)。 将 这 些 情况 放 入 前 面 的 代码 框架 
中 ， 束 获得 了 最 终 的 函数 。 

1= 0; u = n-1 

loop 

{ mustbe(l,u) } 


ifl>u 


p = -1; break 
m=(l+u)/2 
case 
x[m] <t: | = m+1 
x[m] == t: P = m; break 
x[m] > t: u = m-1 
这 是 一 个 简短 的 程序 : 只 有 9 行 代 码 和 一 个 不 变 式 断言 。 程 序 验 证 
的 基本 技术 (精确 定义 不 变 式 并 在 编写 每 一 行 代 码 时 随时 保持 不 变 式 
的 成 立 ) 在 我 们 将 算法 框架 转化 成 伪 代 码 时 起 到 了 很 大 的 作用 。 该 过 
程 使 我 们 对 程序 的 正确 性 树立 了 一 些 信 心 。 但 是 这 并 不 意味 着 该 程序 
融 一 定 是 正确 的 。 在 继续 往 下 阅读 之 前 ， 请 伦 几 分 钟 时 间 确 定 该 代码 
的 功能 是 否 与 所 描述 的 一 致 。 


4.3 理解 程序 


当面 对 复杂 的 编程 问题 的 时 候 ， 我 总 是 试 多 得 到 如 同上 面 那 样 详 
细 的 程序 代码 ， 然 后 使 用 验证 方法 来 增强 自己 对 程序 正确 性 的 信心 。 
本 书 中 的 第 9 章 、 第 11 章 和 人 第 14 章 也 将 在 这 个 层面 上 使 用 验证 技术 。 


本 节 我 们 将 在 近乎 吹 毛 求 疲 的 细节 层面 上 研究 对 二 分 搜索 程序 所 
进行 的 验证 分 析 ， 实 践 中 我 很 少 做 这 么 多 正式 的 分 析 。 下 一 页 的 程序 
大 量 使 用 断言 进行 注释 ， 从 而 形式 化 了 最 初 编写 代码 时 所 用 的 直观 概 
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代码 的 开发 是 目 上 而 下 进行 的 《从 一 般 思 想 开始 ， 将 其 完善 为 独 
立 的 代码 行 ) ， 该 正确 性 分 析 则 是 目下 而 上 进行 的 ;从 每 个 独立 的 代 
码 行 开 始 ， 检 查 它 们 是 如 何 协 同 运作 并 解决 问题 的 。 
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下 面 是 些 乏 味 的 内 容 。 
URE ORAS, WT AREER. 4 市 。 


我 们 从 第 1 行 至 第 3 行 开始 讨论 。mustbe 的 定义 如 下 : 如 果 t 在 数组 
中 ， 那 么 它 一 定 在 x[0..n-1 中 。 由 此 可 知 ， 第 1 行 的 断言 mustbe(0,n-1) 为 
真 。 于 是 ， 根 据 第 2 行 的 赋值 语句 l=0 和 u=n-1 可 以 得 到 第 3 行 的 断言 : 
mustbe(l,u) ° 

下 面 讨论 困难 的 部 分 : 第 4 行 至 第 27 行 的 循环 。 关 于 其 正确 性 的 讨 
论 分 为 3 个 部 分 ， 每 部 分 都 与 循环 不 变 式 密 切 相 关 。 

初始 化 。 循 环 初 次 执行 的 时 候 不 变 式 为 真 。 

保持 。 如 果 在 某 次 迭代 开始 的 时 候 以 及 循环 体 执行 的 时 候 ， 不 变 
式 都 为 真 ， 那 么 ， 循 环 体 执行 完毕 的 时 候 不 变 式 依然 为 真 。 

终止 。 循 环 能 够 终止 ， 并 且 可 以 得 到 期 望 的 结果 〈 在 本 例 中 ， 期 
望 的 结果 是 p 得 到 正确 的 值 ) 。 为 说 明 这 一 点 需要 用 到 不 变 式 所 确立 的 

对 于 初始 化 ， 我 们 注意 到 第 3 行 的 断言 与 第 5 行 的 相同 。 为 确立 其 
他 两 条 性 质 ， 对 第 5 行 至 第 27 行 进行 分 析 。 讨 论 第 9 行 和 第 21 行 (break 


语句 ) 上 时， 将 确立 终止 性 质 。 如 果 持 续 下 去 ， 直 至 第 27 行 ， 就 可 以 得 
到 保持 性 质 ， 因 为 这 又 与 第 5 行 相同 。 
1.{ mustbe(0,n-1) } 


2.1 = 0; u= n-1 

3.{ mustbe(l,u) } 

4.loop 

5. { mustbe(l,u) } 

6 ifl>u 

7 {1> u && mustbe(l,u) } 

8. { tis not in the array } 

9. p = -1; break 

10. { mustbe(l,u) && 1 <= u } 

11. m=(l+u)/2 

12. { mustbe(l,u) && | <= m <= u} 

13. case 

14. x[m] <t: 

15. { mustbe(l,u) && cantbe(0,m) } 
16. { mustbe(m+l,u) } 
17. l=m+1 

18. { mustbe(l,u) } 
19. x[m] == t: 

20. { x[m] == t} 

21. p = m; break 

22. x[m] >t: 

23. { mustbe(l,u) && cantbe(m,n-1) } 
24. { mustbe(1,m-1) } 


25. U=Im-L 


26. { mustbe(l,u) } 

27. { mustbe(l,u) } 

第 6 行 的 成 功 测 试 将 得 到 第 7 行 的 断言 : 如 果 t 在 数组 中 ， 那 么 它 驳 
必定 在 位 置 和 和 u 之 间 ， 且 1 > u。 这 些 事 实 残 意 味 着 第 8 行 的 断言 成 立 : t 
不 在 数组 中 。 于 是 在 第 9 行 设 定 p 为 -1 后 ， 残 可 以 正确 地 终止 循环 。 

如 果 第 6 行 的 测试 失败 ， 就 进入 到 第 10 行 。 不 变 式 依然 为 真 我 们 
没有 对 其 做 任何 改动 ) ， 并 且 由 于 测试 失败 ， 可 得 l<u。 第 11 行 将 m 设 
为 ] 和 u 的 平均 值 ， 回 下 取 整 为 最 接近 的 整数 。 由 于 平均 值 总 是 位 于 两 个 
值 之 间 并 且 取 整 不 会 使 之 小 于 1， 所 以 得 到 第 12 行 的 断言 。 

从 第 13 行 至 第 27 行 的 case 语 名 考虑 到 了 所 有 3 种 可 能 。 最 容易 分 析 
的 一 个 分 文 是 位 于 第 19 行 鸭 第 二 个 分 文 。 由 第 20 行 的 断言 ， 我 们 将 p 设 
定 为 m 并 终止 循环 是 正确 的 。 这 是 第 二 处 终止 循环 的 地 方 (一 共 两 
处 ) ， 由 于 两 次 对 循环 的 终止 都 是 正确 的 ， 于 是 我 们 确立 了 循环 终止 
的 正确 性 。 

下 面 讨论 case 语 句 中 的 两 个 对 称 分 文 。 由 于 在 编写 代码 的 时 候 ， 我 
们 把 精力 集中 在 第 一 个 分 文 上 ， 现 在 我 们 将 注意 力 转移 到 第 22 行 一 第 
26 行 。 考 虑 第 23 行 的 断言 。 第 一 个 和子 句 是 不 变 式 ， 循 环 并 没有 对 其 进 
行 改变 。 由 于 t < x[m]<x[m+1]<...<xm-1]， 第 二 个 子 句 亦 为 真 ， 于 是 我 
们 可 以 知道 t 不 在 数组 中 任何 高 于 m-1 的 位 置 ， 使 用 简短 记 法 表示 为 
cantbe(m,n-1)。 人 逻辑 告 诉 我 们 ， 如 果 t 一 定 在 lL 和 u 之 间 ， 而 且 不 等 于 或 高 
于 m， 那 么 就 一 定 在 和 m-1 之 间 (前 提 是 t 在 x 中 ) ， 于 是 得 到 第 24 行 。 
第 24 行 为 真 时 执行 第 25 行 可 得 第 26 行 为 真一 一 这 是 赋值 的 定义 。case 语 
句 的 这 个 分 文 也 就 再 次 确立 了 第 27 行 的 不 变 式 。 

第 14 行 至 第 18 行 的 讨论 具有 人 完全 相同 的 形式 ， 至 此 ， 我 们 完成 了 
对 case 语 句 所 有 三 个 分 文 的 分 析 。 一 个 正确 地 终止 了 循环 ， 其 他 两 个 则 
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该 代码 分 析 表 明 ， 如 采 循 环 能 够 终止 ， 那 么 殉 可 以 得 到 正确 的 p 
值 。 但 是 ,程序 中 仍 有 可 能 包含 死 循环 ， 事实 上 ， 这 正 是 那些 专业 程 
序 员 编写 该 程序 时 所 犯 的 最 常见 的 错误 。 

我 们 的 停机 证 明 从 另 一 个 角度 对 范围 1.u 进 行 了 考虑 。 初 始 范 围 为 
某 一 有 限 大 小 n) ， 第 6 行 至 第 9 行 确保 当 范 围 中 的 元 素 少 于 一 个 时 终 
止 循环 。 因 此 ， 要 证 明 终 止 ， 我 们 必须 证 明 在 循环 的 每 次 达 代 后 施 围 
都 缩小 了 。 第 12 行 告 诉 我 们 ，m 总 处 于 当前 范围 内 。case 语 句 中 不 终 
止 循环 的 两 个 分 支 (第 14 行 和 第 22 行 都 排除 了 范围 中 位 置 m 人 处 的 值 ， 
由 此 将 范围 大 小 至 少 缩小 1。 因此， 程序 必 会 终止 。 

有 了 这 些 至 景 分 析 ， 我 对 我 们 进一步 讨论 这 个 芳 数 更 有 信心 了 。 
下 一 章 泗 盖 了 以 下 主题 ， 用 C 来 实现 该 画 数 ， 然 后 进行 测试 以 确保 程序 
正确 而 且 高 效 。 


4.4 原理 


本 章 的 练习 展示 了 程序 验证 的 诸多 优势 : 问题 很 重要 ， 需 要 认真 
地 编写 代码 ; 程序 的 开发 需要 遵循 验证 思想 ; 可 以 使 用 一 般 性 的 工具 
进行 程序 的 正确 性 分 析 。 该 练习 的 主要 缺点 在 于 其 细节 层面 : 在 实践 
中 不 需要 这 么 正式 。 坟 运 的 是 ， 这 些 细 市 阐述 了 许多 一 般 性 的 原理 ， 
包括 以 下 原理 。 

断言 。 输 入 、 程 序 变 量 和 输出 之 间 的 关系 勾勒 出 了 程序 的 “ 状 
态 ”， 断 言 使 得 程序 员 可 以 准确 阐述 这 些 关 系 。 这 些 断 言 在 程序 生命 周 
期 中 的 角色 在 下 一 市 中 论述 。 

顺序 控制 结构 。 控 制程 序 的 最 简单 的 结构 莫 过 于 采用 “执行 这 条 语 
名 然后 执行 下 一 条 语句 ”的 形式 。 可 以 通过 在 语句 之 间 添 加 断言 并 分 别 
分 析 程 序 执行 的 每 一 步 来 理解 这 样 的 结构 。 


选择 控制 结构 。 这 些 结构 包括 不 同形 式 的 it 和 case 语 句 ， 在 程序 运 
行 过 程 中 ， 多 个 分 支 中 的 一 个 被 选择 执行 。 我 们 通过 分 别 分 析 每 一 个 
分 支 说 明了 该 结构 的 正确 性 。 一 定 会 选择 某 个 分 支 的 事实 允许 我 们 使 
用 断言 来 证 明 。 例 如 ， 如 果 执行 了 语句 让 i >j， 那 么 我 们 就 可 以 断言 1 >j 
并 且 使 用 这 个 事实 来 推导 出 下 一 个 相关 的 断言 。 

送 代 控制 结构 。 要 证 明 循环 的 正确 性 就 必须 为 其 确立 3 个 性 质 ， 


初始 化 
RR LO { 不 变 式 } 


终止 


我 们 首先 讨论 由 初始 化 确立 的 循环 不 变 式 ， 然 后 证 明 每 次 迭代 都 
保持 该 不 变 式 为 真 。 由 数学 归纳 法 可 知 这 两 步 束 证 明了 在 循环 的 每 次 
送 代 之 前 和 之 后 该 不 变 式 都 为 真 。 第 三 步 症 证 明 无 论 循环 在 何 时 终止 
执行 ， 所 得 到 的 结果 都 是 正确 的 。 综 合 这 些 步骤 可 知 : 只 要 循环 能 停 
止 运行 ， 那 么 其 结 采 吏 是 正确 鸭 。 因 此 我 们 还 必须 用 其 他 方法 证 明 循 
环 一 定 能 终止 (二 分 搜索 的 停机 证 明 所 使 用 的 方法 是 比较 常见 的 ) 。 

函数 。 要 验证 一 个 函数 ， 首 先 需 要 使 用 两 个 断言 来 陈述 其 目的 。 
前 置 条 件 (precon-dition) 是 在 调用 该 函数 之 前 就 应 该 成 立 的 状态 ， 后 
置 条 件 (postcondition) 的 正确 性 由 函数 在 终止 执行 时 保证 。 如 此 可 以 
得 到 C 语 言 二 分 搜索 函数 如 下 ; 

int bsearch(int t,int x[],int n) 


/* precondition: x[0] <= x[1] <=...<= x[n-1] 


postcondition: 
result == -1 => t not present in x 


0 <= result < n => x[result] == t 


*/ 

这 些 条 件 与 其 说 是 事实 陈述 不 如 说 是 一 个 据 约 : MRE ER 
满足 的 情况 下 调用 函数 ， 那 么 函数 的 执行 将 确立 后 置 条 件 。 一 旦 证 明 
函数 体 具 有 该 性 质 ， 在 以 后 的 应 用 中 束 可 以 直接 使 用 前 置 条 件 和 后 置 
条 件 之 间 的 关系 而 不 再 需要 考虑 其 实现 。 该 方法 在 软件 开发 中 通 溃 称 
为 “契约 编程 ”。 


4.5 程序 验证 的 角色 


当 一 个 程序 员 想 要 让 别人 相信 某 段 代码 正确 的 时 候 ， 首 选 的 工具 
通常 束 古 使 用 测试 用 例 ， 运行 程序 并 手动 输入 数据 。 这 是 很 有 效 的 : 
适用 于 检测 程序 的 错误 、 易 于 使 用 并 且 很 容易 理解 。 然 而 ， 程 序 员 明 
显 对 程序 有 更 深 的 理解 一 一 如 果 他 们 做 不 到 这 一 点 的 话 ， 束 不 可 能 编 
写 出 第 一 手 程序 。 程 序 验证 的 一 个 主要 好 处 就 是 为 程序 员 提供 一 种 语 
言 ， 用 来 表达 他 们 对 程序 的 理解 。 

本 书 的 后 续 部 分 《特别 是 第 9 章 、 第 11 章 和 第 14 章 ) 将 会 使 用 验证 
技术 进行 复杂 程序 的 开发 。 在 编写 每 一 行 代码 的 时 候 都 使 用 验证 语言 
来 解释 ， 这 对 概括 每 个 循环 的 不 变 式 特 别 有 用 。 程 序 文本 中 重要 的 解 
释 以 断言 的 形式 结束 ， 而 确定 在 实际 软件 中 应 包含 哪些 断言 则 是 一 门 
亏 术 ， 只 能 在 实践 中 学 习 。 

验证 语言 常用 于 程序 代码 初次 编写 完成 以 后 ， 在 进行 初次 模拟 的 
时 候 开始 使 用 。 测 试 过 程 中 ， 违 反 断 言语 句 的 那些 情况 指明 了 程序 的 
错误 所 在 ， 而 对 相应 情况 形式 的 分 析 则 指出 了 在 不 引入 新 错误 的 情况 

下 如 何 修正 程序 中 的 错误 。 调 试 过 程 中 ， 需 要 同时 修正 错误 代码 和 错 
误 的 断言 : 总 是 保持 对 代码 的 正确 理解 ， 不 要 理会 那 种 “只 要 能 让 程序 
工作 ， 怎 么 改 都 行 ”的 催促 。 下 一 章 介绍 了 程序 验证 在 程序 的 测试 和 调 
试 过 程 中 所 扮演 的 几 种 重要 角色 。 断 言 在 程序 维护 过 程 中 至 关 重 要 : 


当 你 拿 到 一 段 你 从 未 见 过 而 且 多 年 来 也 没有 其 他 人 见 过 的 代码 时 ， 有 
关 该 程序 状态 的 断言 对 于 理解 程序 是 很 有 帮助 的 。 

这 些 仅 是 编写 正确 程序 的 很 小 一 部 分 技术 。 编 写 简 单 的 代码 通常 
征 得 到 正确 程序 的 关键 。 另 一 方面 ， 几 个 熟悉 这 些 验证 技术 的 专业 程 
序 员 曾经 对 我 讲述 了 一 段 在 我 自己 编程 时 也 第 遇 到 的 经 历 : 当 他 们 编 
写 程序 的 时 候 , “困难 ”的 部 分 第 一 次 吏 可 以 正确 运行 ， 而 那些 “容易 ”的 
部 分 往往 会 出 毛病 。 当 开始 编写 困难 的 部 分 时 ， 他 们 会 坐 下 来 仔细 编 
程 并 成 功 地 使 用 强大 的 正规 技术 。 在 编写 容易 的 部 分 时 ， 他 们 又 返回 
到 目 己 的 编程 老路 上 来 了 ， 绪 末 当 然 是 旧病 复发 了 。 在 杀身 经 历 之 
前 ， 我 也 并 不 相信 会 有 这 种 现象 ， 这 种 尴 榨 的 现象 是 经 常 使 用 验证 技 
术 的 民 好 动力 。 


4.6 习题 


1. 尽 管 我 们 的 二 分 搜索 证 明 历 经 曲折 ， 但 是 按照 某 些 标准 来 衡量 还 
征 不 够 完善 。 你 会 如 何 证 明 该 程序 没有 运行 时 错误 (例如 除数 为 0、 数 
值 溶出、 变量 值 超出 声明 的 范围 或 者 数组 下 标 越界 ) 呢 ? 如 采 有 离散 
数学 的 基础 知识 ， 你 能 否 使 用 逻辑 系统 形式 化 该 证 明 ? 

2. 如 末 原 始 的 二 分 搜索 对 你 来 说 太 过 容易 了 ， 那 么 请 试 试 这 个 演化 
后 的 版 本 : 把 t 寿 数组 x 中 第 一 次 出 现 的 位 置 返 回 给 p (如 果 存 在 多 个 的 
话 ， 原 始 的 算法 会 任意 返回 其 中 的 一 个 ) 。 要 求 代码 对 数组 元 素 进行 
对 数 次 比较 (该 任务 可 以 在 log, n 次 比较 之 内 完成 ) 。 

3. 编 写 并 验证 一 个 递归 的 二 分 搜索 程序 。 代 码 和 证 明 中 的 哪些 部 分 
与 迭代 版 本 的 二 分 搜索 程序 相同 ”哪些 部 分 发 生 了 改变 ? 

4. 给 你 的 二 分 搜索 程序 添加 虚拟 的 “计时 变量 ”来 计算 程序 执行 的 比 
较 次 数 ， 并 使 用 程序 验证 技术 来 证 明 其 运行 时 间 确 实 是 对 数 的 。 

5. 证 明 下 面 的 程序 在 输入 x 为 正 整 数 时 能 够 终止 。 


while x != 1 do 
if even(x) 
x = x/2 
else 
x = 3*x +1 
6.[C.Scholten]David Gries [23] 在 其 Science of Programming 中 将 下 面 
的 问题 称 为 “咖啡 色 问 题 *。 给 定 一 个 盛 有 一 些 黑 色 豆 子 和 一 些 白 色 豆 
FONE LE AU RES, BR PRE, Be 
中 仅 剩 一 颗 豆子 为 止 。 
从 饶 中 随机 选取 两 颗 豆 子 ， 如 果 颜 色相 同 ， 束 将 它们 都 扔 掉 并 且 
放 入 一 个 额外 的 黑色 豆子 ; 如 采 颜 色 不 同 ， 就 将 白色 的 豆子 放 回 铅 
中 ， 而 将 黑色 的 豆子 扔 掉 。 
证 明 该 过 程 会 终止 。 最 后 留 在 铅 中 的 豆子 颜色 与 最 初 钠 中 日 色 豆 
子 和 黑色 豆子 的 数量 有 何 函 数 关 系 ? 
7 一 位 同事 在 编写 一 个 在 位 图 显示 器 中 画 线 的 程序 时 直到 了 下 面 的 
问题 。n 对 实数 (ai ,bi ) 构 成 的 数组 定义 了 n 条 和 直线 y; =a, x+tb; 。 当 x 位 于 
[0,1] 内 时 ， 对 于 区 间 [0,n-2] 内 的 所 有 i， 这 些 线段 按 y; <y 1 排序 : 


用 更 形象 的 话说 ， 这 些 线段 在 和 垩 直方 向 上 不 交叉 。 给 定 一 个 满足 
0<x<1 的 点 (x，y)， 他 需要 确定 包围 这 个 点 的 两 条 线段 。 他 该 如 何 快速 
解决 该 问题 呢 ? 


8. 二 分 搜索 一 般 比 顺序 搜索 要 快 : 在 含有 mn 个 元 素 的 表 中 查找 ， 二 
分 搜索 需要 大 约 log, n 次 比较 ， 而 顺序 搜索 需要 大 约 n/2 次 比较 。 通 常情 
况 下 这 已 经 足够 快 了 ， 但 在 有 些 情况 下 ， 二 分 搜索 必须 执行 得 更 快 。 
虽然 我 们 无 法 减少 由 算法 决定 的 对 数 级 的 比较 次 数 ， 你 可 以 重新 编写 
代码 使 之 执行 得 更 快 吗 ? 为 明确 起 见 ， 假 定 你 需要 搜索 一 个 包含 1 000 
个 整数 的 有 序 表 。 

9. 完 成 以 下 程序 验证 练习 ， 准 确 说 明 以 下 每 个 程序 片段 的 输入 /和 输 
出 动作 ， 并 证 明代 码 可 以 完成 其 任务 。 第 一 个 程序 实现 向 量 加 法 


a=b+c ° 


i=0 
while i <n 
ali] = bli] + cli] 
i=i+1 
(该 代码 和 下 面 的 两 个 代码 片段 使 用 末尾 带 有 目 增 运算 的 while 循 
环 展开 了 “for i =[0.nD)” 循 环 ) 。 下 面 的 代码 片段 计算 数组 x 中 的 最 大 值 。 
max = x[0] 
i=1 


while i < n do 


if x[i] > max 


max = x[i] 
i=i+1 
下 面 的 顺序 搜索 程序 返回 t 在 数组 x[0..n-1] 中 第 一 次 出 现 的 位 置 。 
i=0 
while i < n && xli] !=t 
i=i+1 
ifi>=n 


peel 


else 
p=i 
下 面 的 程序 以 正比 于 n 的 对 数 的 时 间 计 算 x 的 n 次 方 。 该 递归 程序 的 
编码 和 验证 很 创 单 ， 其 迄 代 版 本 比较 复杂 ， 留 作 附加 题 。 
function exp(x,n) 
pren>=0 
post result = xAn 
ifn=0 
return 1 
else if even(n) 
return square(exp(x,n/2)) 
else 
return x*exp(x,n-1) 
10. 在 二 分 搜索 函数 中 引入 错误 ， 观 察 验 证 错误 代码 时 这 些 引 入 的 
错误 是 否 会 〈 以 及 如 何 ) 被 捕获 ? 
11. 使 用 C 或 C++ 编写 递归 的 二 分 搜索 函数 并 证 明 其 正确 性 ， 要 求 函 
数 的 声明 如 下 : 
int binarysearch(DataType x[],int n) 


单独 使 用 该 函数 ， 不 要 调用 其 他 任何 递归 函数 。 
4.7 深入 阅读 


David Gries 所 车 的 Science of Programming 是 程序 验证 领域 里 极 佳 的 
一 本 入 门 书籍 ， 该 书 的 平装 本 由 Springer-Verlag 出 版 社 于 1987 年 出 
版 。 这 本 书 先 讲 逻 辑 ， 进 而 对 程序 验证 和 开发 进行 了 正规 的 介绍 ， 最 
后 讨论 了 常见 语言 的 编程 问题 。 本 章 尝 试 勾勒 出 了 程序 验证 的 潜在 好 


处 ;对 多 数 程序 员 来 说 ， 要 想 高 效 地 使 用 程序 验证 技术 ， 唯 一 的 办 法 
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到 目前 为 止 ， 你 已 经 做 了 一 切 该 做 的 事 : 通过 深入 挖掘 定义 了 正 
确 的 问题 ， 通 过 仔细 选择 算法 和 数据 结构 平衡 了 真正 的 需求 ， 通 过 程 
序 验 证 技术 写 出 了 优雅 的 伪 人 代码， 并 且 对 其 正确 性 相当 有 把 握 。 那 么 
如 何 将 这 些 成 果 合 并 到 你 的 大 系统 中 呢 ? WB, JRR, RAER 
的 编程 了 。 

程序 员 都 是 乐观 主义 者 ， 他 们 总 是 试图 走 捷径 : 编写 函数 代码 ， 
并 将 其 插入 系统 中 ， 然 后 热切 地 期 望 它 能 运行 。 有 了 时候 这 样 做 行 得 
通 。 但 是 有 于 分 之 九 百 九 十 九 的 概率 ， 这 样 做 会 导致 一 场 灾难 : 人 们 
不 得 不 在 巨型 系统 的 迷 襄 中 操纵 这 个 小 小 的 函数 。 

明智 的 程序 员 则 使 用 脚手架 (scaffolding) 来 方便 地 访问 函数 。 本 
章 着 重 论述 如 何 将 前 一 章 中 用 伪 代 码 描述 的 二 分 搜索 程序 实现 为 可 靠 
的 C 芳 数 。 《使 用 C++ 或 Java 实 现 的 代码 与 之 非常 相似 ， 该 方法 同样 适 
用 于 其 他 多 数 编程 语言 。) 编写 完 代码 以 后 ， 我 们 将 使 用 脚手架 来 探 
察 代码 ， 然 后 更 彻 属 地 测试 代码 ， 并 通过 实验 来 了 解 运行 时 间 。 对 这 
样 一 个 小 函数 来 讽 ， 这 个 过 程 太 索 琐 了 “。 然 而 ， 这 样 做 能 够 得 到 一 段 
可 以 信赖 的 程序 。 


5.1 从 伪 代 码 到 C 程 序 


假设 数组 x 和 目标 项 t 的 数据 类 型 均 为 DataType，DataType 使 用 C 语 
言 的 typedef 语 句 定义 如 下 : 


typedef int DataType; 

定义 的 类 型 可 以 是 长 整 型 、 浮 点 型 或 其 他 任何 类 型 。 数 组 使 用 如 
下 两 个 全 局 变量 实现 : 

int n; 

DataType x[MAXN]; 

(尽管 这 对 于 多 数 C 程 序 来 说 是 很 差 的 编程 风格 ， 但 是 它 反映 了 在 
C++ 类 中 访问 数据 的 方法 ， 使 用 全 局 变量 也 可 以 得 到 较 小 的 脚手架 。) 
我 们 的 目标 是 如 下 的 C 函 数 : 

int binarysearch(DataType t) 


/* precondition: x[0] <= x[1] <=...<= x[n-1] 


postcondition: 
result == -1=> t not present in x 
0 <= result < n => x[result] == t 
F 
4.2 节 中 的 大 部 分 伪 代 码 语句 都 可 以 直接 逐 行 转换 成 C 程 序 (或 多 
数 其 他 语言 的 程序 ) 。 伪 代码 将 数值 存储 在 答案 变量 p 中 ， 对 应 的 C 语 
言 程序 则 返回 该 值 。 使 用 C 语 言 的 无 限 循环 语句 for(G;) 取 代 伪 代码 中 的 
loop 得 到 如 下 代码 : 
for (;;) { 
if (>u) 


return -1; 


..rest of loop... 
} 
也 可 以 通过 逆转 测试 条 件 ， 把 该 循环 变 成 while 循 环 语 句 : 
while (1 <= u) { 


...rest of loop... 


return -1; 
于 是 得 到 最 终 的 程序 如 下 : 
int binarysearch(DataType t) 
/* return (any) position if t in sorted x[0..n-1] or 


-1 if t is not present */ 


{ int l,u,m; 
1=0; 
u=n-l; 
while (1 <= u) { 
m=(+u)/2; 


if (x[m] < t) 
l=m+1; 
else if (x[m] == t) 
return m; 
else /* x[m] > t */ 
u = m-1; 
} 


return -1; 


5.2 测试 工具 


运用 该 函数 的 第 一 步 当 然 是 进行 一 些 手动 测试 。 小 实例 〈 零 元 、 
一 元 和 二 元 数组 ) 常常 就 足以 检测 出 程序 中 的 错误 。 更 大 些 的 数组 测 
试 开始 变 得 乏味 ， 于 是 就 有 了 下 一 步 : 编写 驱动 程序 来 调用 该 男 数 。5 
行 语句 的 C 语 言 脚手架 就 可 以 完成 该 工作 : 

while ( scanf("%d %d",&n,&t) != EOF) { 


for (i = 0; i < n; i++) 
x[i] = 10*i; 
printf(" %d\n" ,binarysearch(t)); 
} 
我 们 移 测 试 一 个 仅 有 二 十 多 行 语 句 的 C 语 言 程序 : binarysearch 2X 
和 包含 上 述 代 码 的 main 函 数 。 可 以 预计 ， 当 增加 额外 的 脚手架 时 ， 该 
程序 会 变 长 。 
键入 输入 行 “2 0”， 程 序 产生 一 个 二 元 数组 ， 其 中 x[0]=0 ， 
x[1]=10， 然 后 (在 下 一 个 缩 进 的 行 ) 给 出 搜索 “0” 的 结果 是 :元素 “0” 
位 于 位 置 “0”: 
20 


键入 的 输入 数据 总 是 用 斜体 表示 。 下 一 对 数据 行 显 示 元 聚 “10? 在 
位 置 1 正确 找到 。 后 面 的 6 行 描 述 了 3 次 正确 的 不 成 功 搜索 。 至 此 ， 该 程 
序 正确 地 处 理 了 具有 两 个 不 同 元 素 的 数组 中 所 有 可 能 的 搜索 。 当 程序 
陆续 通过 了 不 同 规模 输入 的 类 似 测试 之 后 ， 我 对 程序 的 正确 性 越 来 越 
有 信心 了 ， 并 且 也 越 来 越 厌倦 这 费时 费力 的 手动 测试 。 下 一 节 描 述 了 
脚手架 如 何 目 动 完成 此 项 工作 。 


不 是 所 有 的 测试 都 是 这 么 一 帆 风 顺 的 。 下 面 是 几 位 专业 程序 员 给 
出 的 二 分 搜索 程序 : 
int badsearch(DataType t) 
{ int l,u,m; 
1=0 
u=n-l; 
while (| <= u) { 
m=(1+u)/2 
/* printf(" %d %d %d\n",1,m,u) */ 
if (x[m] < t) 
l=m; 
else if (x[m] > t) 
u=™m; 
else 
return m; 
} 
return -1; 
} 
(我 们 很 快 就 会 回 过 头 来 讨论 注释 掉 的 printf 语 句 。) 你 能 找 出 这 
段 代 码 中 的 问题 吗 ? 
程序 通过 了 前 两 个 小 测试 。 在 五 元 数组 的 位 置 2 找到 了 元 素 20， 在 


位 置 3 找到 了 元 素 30: 
5 20 
2 
5 30 
3 


5 40 


当 我 试图 搜索 40 时 ， 程 序 进入 了 死 循环 。 为 什么 ? 
为 解 开 这 个 谜团 ， 我 在 上 面 的 程序 中 插入 了 一 个 printf 语 句 作 为 注 
释 。 (该 语句 向 左 侧 突出 ， 以 表明 它 是 脚手架 。) 该 printf 语 句 显示 了 
每 一 次 搜索 中 ]、m 和 u 的 值 的 序列 : 
5 20 
024 


024 
234 
334 
334 
334 


第 一 次 搜索 在 第 一 次 探测 的 时 候 束 找到 了 元 系 20， 第 二 次 搜索 在 
第 二 次 探测 时 找到 了 30。 第 三 次 搜索 在 前 两 次 探测 时 也 是 好 的 ， 但 是 
第 三 次 探测 束 进 入 了 死 循环 。 当 我 们 试图 证 明 循环 能 够 终止 时 束 应 该 
发 现 该 错误 了 。 

当 我 需要 调试 一 个 深 深 敬 入 大 程序 中 的 小 算法 时 ， 我 有 时 会 在 大 
程序 中 使 用 诸如 单 步 跟踪 之 类 的 调 斌 工具。 但是， 当面 对 这 样 的 使 用 
脚 手 染 的 算法 时 ，print 语 句 实现 起 来 通 向 比 复 洒 的 调试 絮 更 快 ， 也 更 
有 效 。 


在 第 4 章 中 开发 二 分 搜索 时 ， 上 断言 就 扮演 了 数 个 重要 的 角色 : 既 可 
以 用 来 指导 程序 代码 的 开发 ， 也 可 以 用 来 判断 程序 的 正确 性 。 现 在 ， 
我 们 将 断言 插入 代码 中 ， 以 确保 程序 运行 时 的 行为 与 我 们 的 理解 相 一 
致 。 

我 们 使 用 assert 表 示 我 们 相信 某 个 逻辑 表达 式 为 真 。 语 句 assert(n>0) 
在 n 为 0 或 更 大 时 什么 都 不 做 ， 但 在 n 为 负 值 时 会 报告 某 种 错误 〈 或 许 
还 会 调用 调试 器 ) 。 在 报告 二 分 搜索 程序 找到 其 目标 之 前 ， 我 们 可 能 
作出 如 下 断言 : 


else if (x[m] == t) { 
assert(x[m] == t); 
return m; 


} else 
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强 ， 以 断言 其 返回 值 在 输入 范围 内 ; 

assert(0 <= m && m <n && x[m] == t); 

当 循 环 因为 没有 找到 目标 值 而 终止 时 ， 我 们 知道 1 和 u 已 经 交叉 了 ， 
于 是 可 以 知道 元 素 并 不 在 数组 中 。 我 们 可 能 会 试图 去 断言 我 们 找到 了 
一 对 相 邻 的 元 系 值 ， 其 中 一 个 小 于 目标 值 ， 另 一 个 大 于 目标 值 : 

assert(x[u] < t && x[u+1] > t); 

return -1; 

其 逻辑 如 下 : 如 果 在 排序 后 的 表 中 1 和 3 相 邻 ， 那 么 我 们 就 可 以 确 
定 2 不 存在 于 表 中 。 即 使 对 正确 的 程序 ， 该 断言 有 时 候 也 会 失败 ， 为 什 


AT 


当 n 为 零 时 ， 变 量 u 初 始 化 为 -1， 于 是 ， 下 标 会 索引 至 数组 之 外 的 某 
个 元 素 。 要 使 断言 有 效 ， 必 须 通过 测试 边界 将 其 弱化 : 

assert((u < 0 || x[u] < t) && (u+1 >=n || x[u+1] > t)); 

该 断言 确实 可 以 在 不 完善 的 搜索 中 发 现 程序 的 一 些 错误 © 

可 以 通过 证 实在 每 次 和 色 代 之 后 范围 都 减 小 来 证 明 搜索 一 定 会 终 
止 。 我 们 可 以 通过 添加 一 点 额外 的 计算 和 一 条 断言 ， 在 程序 执行 时 测 
斌 该 性 质 。 我 们 将 size 初始 化 为 n+1， 然 后 在 for 语 句 后 插入 如 下 代码 : 


oldsize = size; 


size =u-l1+1; 

assert(size < oldsize); 

我 经 常 陷入 这 样 的 尴 座 境地 : 自己 费 尽 精力 调 通 了 一 个 二 分 搜索 
程序 ， 却 发 现 错误 原因 仅仅 是 待 搜索 的 数组 未 排序 。 一 旦 定义 了 下 面 
的 函数 : 


int sorted() 


{ int i; 
for (i = 0; i < n-1; i++) 
if ( xli] > x[it+1]) 
return 0; 
return 1; 

} 

就 可 以 断言 assert(sorted()) 了 。 但 是 必须 注意 ， 由 于 该 测试 的 开销 
较 大 ， 我 们 应 该 只 在 所 有 的 搜索 之 前 进行 一 次 测试 。 将 该 测试 包含 在 
主 循环 之 中 会 导致 二 分 搜索 的 运行 时 间 正 比 于 nlogn。 

在 脚手架 中 测试 该 琅 数 时 ， 断 言 会 很 有 帮助 。 当 我 们 从 组 件 测试 
转 回 系统 测试 时 ， 上 断言 同样 也 很 有 帮助 。 某 些 项 目 使 用 预 处 理 套 定义 
上 条 言 ， 于 是 可 以 在 编译 阶段 处 理 断 言 ， 而 不 会 导致 运行 时 的 额外 开 
销 。 另 外 ，Tony Hoare 曾 经 注意 到 ， 在 测试 时 使 用 断言 ， 而 在 产品 发 布 


时 将 断言 关闭 的 程序 员 ， 就 像 是 在 岸上 操练 时 穿着 救生 衣 ， 而 下 海 时 
将 救生 衣 脱 下 的 水 手 。 

Steve Maguire 的 Writing Solid Code 一 书 (微软 出 版 社 1993 年 出 版 ) 
第 2 章 论 述 了 在 工业 级 软件 中 断言 的 应 用 。 他 详细 描述 了 在 微软 的 产品 
和 库 中 使 用 断言 的 几 个 纷争 。 


5.4 自动 测试 


我 们 已 经 在 该 程序 上 做 了 足够 多 的 工作 来 确保 其 正确 性 ， 并 且 我 
们 也 已 经 厌 们 了 手动 输入 测试 用 例 。 下 一 步 就 是 建立 脚手架 ， 使 用 机 
妖 对 程序 进行 自动 测试 。 测 斌 函数 的 主人 循环 运行 时 ，n 从 最 小 的 可 能 值 
(0) 变化 到 最 大 的 合理 值 : 
for n = [0,maxn] 


/* test value n */ 
print 语 句 报告 测试 的 进度 。 有 些 程序 员 不 喜欢 这 样 做 : 这 样 仅 仅 
得 到 了 一 些 混乱 而 非 实质 性 的 信息 ; 另 一 些 程序 员 则 从 中 得 到 了 感 
夭 ， 并 可 以 在 发 现 第 一 个 错误 的 时 候 知 道 程序 已 经 通过 了 哪些 测试 。 
测试 循环 的 第 一 部 分 检验 了 所 有 元 素 互 异 的 情况 (在 数组 顶部 放 
置 了 一 个 多 余 的 元 素 ， 以 确保 搜索 不 会 定位 到 该 位 置 ) 。 
/* test distinct elements (plus one at the end) */ 
for i = [0,n] 
x[i] = 10*i 
for i = [0,n) 
assert(s(10*i) == ij) 
assert(s(10*i - 5) == -1) 
assert(s(10*n - 5) == -1) 


assert(s(10*n) == -1) 
为 了 方便 地 测试 不 同 的 功能 ， 我 们 定义 要 测试 的 函数 如 下 : 
#define s binarysearch 
程序 中 的 断言 为 成 功 的 和 不 成 功 的 搜索 测试 每 一 个 可 能 的 位 置 ， 
以 及 元 素 在 数组 中 但 位 于 搜索 边界 之 外 的 情况 。 
测试 循环 的 下 一 部 分 探测 所 有 元 素 都 相等 的 数组 : 
/* test equal elements */ 
for i = [0,n) 
xli] = 
ifn == 0 
assert (s(10) == -1) 


else 
assert(O <= s(10) && s(10) < n) 

assert(s(5) == -1) 

assert(s(15) == -1) 

该 程序 搜索 数组 中 的 元 素 以 及 稍 小 和 稍 大 些 的 元 素 。 

这 些 测试 覆盖 了 程序 的 大 部 分 内 容 。 对 n 在 0 一 100 范 围 的 取 值 进行 
测试 涵盖 了 空 数 组 、 常 见 的 出 错 规模 (0, 1, 2) > ZL aK 
许多 与 2 的 需 次 相差 1 的 数值 。 手 动 进行 这 些 测试 会 极度 枯燥 (并 可 能 
因此 导致 出 错 ) ， 而 用 计算 机 来 测试 则 只 需要 极 少 的 时 间 。 当 maxn 为 1 
000 时 ， 这 些 测试 在 我 的 计算 机 上 仅 需要 几 秒 钟 的 时 间 。 


大 量 的 测试 使 我 们 确信 该 搜索 程序 是 正确 的 。 接 下 来 如 何 确信 该 
程序 完成 二 分 搜索 任务 需要 大 约 log, n 次 比较 呢 ? 下 面 是 计时 脚手架 的 
主 循环 : 


while read(algnum,n,numtests) 
for i = [0,n) 
x[i] =i 
starttime = clock() 
for testnum = [0,numtests) 
for i = [0,n) 
switch (algnum) 
case 1:assert(binarysearch1(i) == i) 
case 2:assert(binarysearch2(i) == i) 
clicks = clock() - starttime 
print algnum,n,numtests,clicks, 
clicks/(le9 * CLOCKS_PER_SEC * n *numtests) 
该 代码 计算 在 n 个 不 同 元 素 构成 的 数组 中 进行 一 次 成 功 的 二 分 搜索 
所 需要 的 平均 运行 时 间 。 代 码 首 先 初 始 化 数组 ， 然 后 对 数组 中 的 每 一 
个 元 素 执行 numtests 次 搜索 。switch 语 名 选择 需要 测试 的 算法 (脚手架 
应 该 总 是 可 以 对 数 个 不 同 的 程序 进行 检测 ) 。print 语 句 报告 三 个 输入 
值 和 两 个 输出 值 : 时 钟 的 原始 值 《观察 这 些 值 总 是 很 关键 ) 以 及 一 个 
更 容易 解释 的 值 (本 例 中 为 用 纳 秒表 示 的 每 次 搜索 的 平均 运行 时 间 ， 
纳 秒 单位 在 print 语 句 中 由 转换 系数 1e9 给 出 ) 。 
下 面 是 该 程序 在 400 MHz Pentium IT 计算 机 上 实际 运行 的 情况 (与 
以 往 一 样 ， 键 入 的 输入 数据 采用 斜体 表示 ) : 


1 1000 10000 

1 1000 10000 3445 344.5 
1 10000 1000 

1 10000 1000 4436 443.6 
1 100000 100 

1 100000 100 5658 565.8 


1 1000000 10 

1 1000000 10 6619 661.9 

第 一 行 在 一 个 1 000 个 元 素 的 数组 上 对 算法 1 (到 目前 为 止 我 们 一 直 
在 研究 的 二 分 搜索 ) 进行 了 10 000 次 测试 ， 共 花费 了 3 445 个 时 钟 单位 
(在 该 系统 中 用 毫秒 表示 ) 。 也 就 是 说 平均 每 次 搜索 需要 344.5 纳 秒 的 
时 间 。 随 后 的 三 个 测试 每 次 将 n 扩 大 10 倍 ， 而 将 测试 的 次 数 减 少 为 前 一 
次 的 十 分 之 一 。 搜 索 的 运行 时 间 看 起 来 大 约定 50+30log2z n 纳 秒 。 

接 下 来 我 编写 了 一 个 三 行 的 程序 来 生成 计时 脚手架 的 输入 。 输 出 
采用 图 形 打印 出 来 。 如 图 所 示 ， 平 均 的 搜索 开销 确实 按 log n 增 长 。 习 
题 7 研 究 了 该 脚手架 的 一 个 潜在 的 计时 错误 。 在 研究 该 习题 之 前 ， 请 移 
不 要 太 相 信 这 些 数 。 
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纳 秒 为 单位 ) 
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5.6 完整 的 程序 


我 相信 用 C 语 言 实现 的 二 分 搜索 程序 是 正确 的 。 为 什么 ? 我 仔细 地 
将 盆 代 码 转 换 成 方便 的 语言 ， 然 后 使 用 分 析 技 术 验 证 了 其 正确 性 。 我 
逐 行将 其 转换 成 C 语 言 程序 ， 然 后 给 出 输入 并 观察 其 输出 。 我 在 代码 各 


处 都 放置 了 上 断言， 以 确保 我 鸭 理 论 分 析 和 实际 结果 是 一 致 的 。 计 算 机 
负责 完成 其 擅长 的 工作 ， 并 用 测试 用 例 对 程序 进行 了 测试 。 最 后 ， 简 
单 的 实验 表明 其 运行 时 间 与 理论 预期 的 一 样 短 。 

有 了 这 些 保证 ， 我 应 该 可 以 放心 地 使 用 该 程序 在 大 系统 中 执行 对 
有 序数 组 的 搜索 了 了。 如果 在 该 C 代 码 中 发 现 逻 辑 错误 ， 我 会 非常 惊讶 ; 
但 是 如 果 发 现 许多 其 他 类 型 的 错误 ， 我 不 会 感到 震惊 。 调 用 者 有 没有 
筷 记 对 表 进 行 排序 ? 如 果 搜 索 的 项 不 存在 于 表 中 ， 期 望 的 返回 值 是 -1 
吗 ? 如 果 目 标 项 在 表 中 多 次 出 现 ， 这 个 程序 会 任意 返回 一 个 下 标 ; 用 
户 需 要 的 到 底 是 第 一 次 还 是 最 后 一 次 出 现 的 下 标 ? 还 有 诸如 此 类 的 许 
多 其 他 问题 。 

该 程序 代码 可 以 信赖 吗 ? 你 可 以 信任 我 。 (呵呵 ， 但 也 不 要 什么 
话 都 相信 啊 ， 我 现在 有 一 座 大 桥 要 出 售 ， 你 想 不 想 买 ? ) 当然 ， 还 是 
应 该 从 本 书 的 网 站 上 直接 下 载 这 个 程序 的 代码 ， 目 己 研 究 一 下 。 这 上 段 
代码 包括 到 目前 为 止 我 们 讨论 过 的 所 有 函数 ， 以 及 将 在 第 9 章 讨论 的 几 
个 二 分 搜索 的 变 体 。 其 主 函 数 大 致 如 下 : 

int main(void) 

{ /* probe1(); */ 

/* test(25); */ 


timedriver(); 


return 0; 

} 

EM EAS SRP, AROS, BOT] 
以 用 特定 的 输入 运行 程序 、 用 测试 用 例 测试 函数 或 者 进行 计时 实验 。 


5.7 原理 


本 章 对 一 个 小 问题 花费 了 大 量 的 笔墨 。 该 问题 虽 小 ， 却 不 容易 。 
回想 4.1 廊 提 到 的 ， 虽然 第 一 篇 二 分 搜索 论文 在 1946 年 就 发 表 了 ， 但 是 
第 一 个 对 所 有 的 n 值 都 没有 错误 的 二 分 搜索 程序 却 直 到 1962 年 才 出 
现 。 如 果 早 期 的 程序 员 能 够 采用 本 章 中 讨论 的 方法 ， 也 许 得 到 正确 的 
二 分 搜索 程序 就 用 不 着 16 年 了 。 

脚手架 。 最 好 的 脚 手 染 通常 是 最 容易 构建 的 脚手架 。 对 某 些 任务 
来 说 ， 最 人 简单 的 脚手架 由 一 个 使 用 Visual Basic、Java 或 Tcl 之 类 的 语言 
实现 的 图 形 用 户 界 面 构 成 。 对 于 上 述 每 一 种 语言 ， 我 都 在 半 小 时 之 内 
实现 过 具有 点 击 控件 和 良好 的 图 形 输出 的 小 程序 。 不 过 ， 对 于 许多 算 
法 任务 而 言 ， 我 发 现 更 容易 的 办 法 是 ， 握 弃 这 些 强大 的 工具 并 使 用 我 
们 在 本 章 中 见 过 的 更 简单 (也 更 易 移 植 ， 的 命令 行 技 术 。 

编码 。 对 于 比较 难 写 的 函数 ， 我 发 现 最 容易 的 方法 是 使 用 方便 的 
高 级 伪 代 码 来 构建 程序 框架 ， 然 后 将 伪 代 码 翻译 成 要 实现 的 语言 。 

测试 。 在 脚手架 中 对 组 件 进 行 测试 要 比 在 大 系统 中 更 容易 、 更 彻 
Eo 

调试 。 对 隔离 在 其 脚手架 中 的 程序 进行 调试 是 很 困难 的 ， 但 是 若 
将 其 藤 入 真实 运行 环境 中 ， 调 斌 工作 会 更 困难 。5.10 节 讲述 了 一 些 调试 
大 型 系统 的 故事 。 

计时 。 如 果 运 行 时 间 不 重要 ， 线 性 搜索 要 比 二 分 搜索 简单 得 多 ，; 
许多 程序 员 都 可 以 在 第 一 次 实现 的 时 候 得 到 正确 的 代码 。 正 是 由 于 运 
行 时 间 非 常 重 要 ， 我 们 才 引 入 了 更 加 复杂 的 二 分 搜索 ， 所 以 ， 我 们 应 
该 进行 实验 以 确保 程序 能 够 达到 我 们 预期 的 性 能 。 


5.8 习题 


1. 全 面 评 论 一 下 本 章 以 及 本 书 的 编程 风格 。 解 决 变量 名 、 二 分 搜索 
函数 的 形式 和 规 艺 说 明 、 代 码 的 布局 等 方面 的 问题 。 


2. 将 二 分 搜索 的 伪 代 码 描述 转换 成 C 语 言 之 外 的 其 他 编程 语言 ， 并 
建立 脚手架 对 你 的 实现 进行 测试 和 调试 。 所 使 用 的 语言 和 系统 对 你 有 
哪些 帮助 ， 又 有 哪些 妨碍 ? 

3. 在 二 分 搜索 画 数 中 引入 错误 。 如 何 通过 测试 捕获 这 些 错误 ? 脚 手 
架 是 如 何 帮 助 你 找 出 错误 的 ? (这 个 练习 最 好 作为 一 个 双人 游戏 来 完 
成 ， 其 中 攻击 方 引 入 错误 ， 而 防御 方 则 必须 追踪 错误 ) 。 

4. 重 复习 题 3， 但 是 这 次 让 二 分 搜索 的 代码 保持 正确 而 将 错误 引入 
调用 二 分 搜索 的 函数 中 (例如 筷 记 对 数组 进行 排序 ) 。 

5.[R.S.Cox] 一 个 常见 的 错误 就 是 把 二 分 搜索 应 用 于 未 排序 的 数组 ， 
而 在 每 次 搜索 前 检测 整个 数组 是 否 有 序 需要 进行 n-1 次 额外 的 比较 。 你 
能 否 为 该 函数 添加 部 分 检测 程序 ， 以 显著 降低 检测 的 开销 ? 

6. 实 现 一 个 用 于 研究 二 分 搜索 算法 的 图 形 用 户 弄 面 。 为 增加 调试 效 
率 而 付出 额外 的 开发 时 间 是 否 值得 ? 

7.5.5 广 的 计时 脚手架 有 一 个 潜在 的 计时 错误 : 通过 按 顺序 搜索 每 
个 元 素 ， 我 们 获得 了 非常 有 利 的 缓存 性 能 。 如 果 已 知 在 浅 在 的 应 用 中 
搜索 是 按 相似 的 方式 进行 的 ， 那 么 这 是 一 个 正确 的 程序 框架 (但 是 那 
样 的 话 二 分 搜索 恐 介 并 不 是 一 个 恰当 的 工具 ) 。 但 是 ， 如 果 我 们 希望 
搜索 算法 对 数组 的 探测 随机 进行 ， 那 么 我 们 也 许 还 应 该 初始 化 并 打 乱 
一 个 排列 向 量 

for i = [0,n) 

pli] =i 

scramble(p,n) 

然后 按 随机 顺序 执行 搜索 

assert(binarysearch1(p[i]) == p[i]) 

度量 这 两 个 版 本 的 运行 时 间 ， 看 看 是 否 存在 差异 。 

8. 脚 手 织 并 未 被 充分 利用 ， 而 且 很 少 有 公开 的 摘 述 。 碍 看 你 所 能 找 
到 的 任意 脚手架 ， 失 望 或 许 会 驱使 你 去 访问 本 书 的 网 站 。 编 写 脚 手 染 


来 测试 一 个 你 目 己 编写 的 复杂 函数 。 

9. 从 本 书 的 网 站 上 下 载 search.c 脚 手 架 程序 ， 通 过 实验 看 看 二 分 搜 
索 程序 在 你 机 器 上 的 运行 时 间 。 你 打算 使 用 哪些 工具 来 生成 输入 以 及 
存储 并 分 析 输 出 ? 


5.9 深入 阅读 


Kernighan 和 Pike 的 Practice of Programming [24] 由 Addison-Wesley 出 
版 社 于 1999 年 出 版 。 他 们 使 用 了 50 页 的 篇 幅 来 讲述 调试 (第 5 章 ) 和 测 
试 (BOE) 。 这 两 章 介 绍 了 不 可 重 现 的 错误 、 回 归 测 试 等 超出 本 章 范 
围 的 一 些 重 要 主题 。 

对 每 一 个 实际 程序 员 来 说 ， 这 本 书 的 9 章 都 很 有 吸引 力 并 且 很 有 
趣 。 除 了 上 面 提 到 的 两 章 外 ， 其 他 各 章 的 题目 包括 编程 风格 、 算 法 与 
数据 结构 、 设 计 与 实现 、 接 口 、 性 能 、 可 移植 性 和 表示 法 。 书 中 深入 
剖析 了 两 个 熟练 程序 员 的 编程 技巧 和 风格 。 

本 书 的 3.8 太 介绍 了 Steve McConnell 的 《代码 大 全 》 一 书 。 该 书 的 
第 25 章 讲述 了 “单元 测试 ”， 第 26 章 描述 了 “调试 ”。 


5.10 调试 (边栏 ) 


每 个 程序 员 都 知道 调试 是 很 困难 的 。 但 是 ， 伟 大 的 调试 人 员 可 以 
使 这 个 工作 看 起 来 很 简单 。 心 烦 意 乱 的 程序 员 向 调试 大 师 描述 了 一 个 
他 们 花费 数 小 时 也 没有 捕捉 到 的 错误 ， 而 大 师 询 问 了 几 个 问题 之 后 ， 
他 们 花 几 分 钟 的 时 间 葡 找到 了 错误 代码 。 专 业 的 调试 人 员 永 远 也 不 会 
蕊 记 ， 无 论 系 统 的 行为 乍 看 起 来 多 么 神秘 英 测 ， 其 背后 总 有 合乎 逻辑 
的 解释 。 

IBM 的 Yorktown Heights 人 研究 中 心 发 生 的 一 件 轶 事 可 以 说 明 这 一 
点 。 一 位 程序 员 刚 刚 安装 了 一 台新 的 工作 站 。 当 他 坐 着 时 一 切 正常 ， 


但 是 ,一旦 他 站 起 来 ， 束 不 能 登录 系统 。 这 种 情况 是 百分之百 可 重复 
的 : 坐 着 时 ， 他 总 是 可 以 登录 系统 ， 站 着 时 ， 他 总 是 不 能 登录 系统 。 

我 们 中 的 多 数 人 都 不 会 采取 任何 行动 ， 而 仅仅 是 为 此 感到 惊奇 。 
工作 站 是 如 何 知道 这 个 可 怜 的 家 伙 是 坐 着 还 是 站 着 的 呢 ? 但是， 优秀 
的 调试 人 员 知 道 其 中 必定 有 一 个 合理 的 解释 。 从 电气 原理 角度 最 容易 
进行 假设 。 是 地 秩 下 面 的 蘑 根 电线 松动 了 ， 还 是 问题 出 在 静电 上 ? 但 
是 电气 问题 极 少 每 次 的 现象 都 完全 一 致 。 一 位 机 有 灵 的 同事 最 终 问 到 了 
正确 的 问题 : 程序 员 坐 着 和 站 着 时 分 别 是 如 何 登 录 的 呢 ? 伸 出 目 己 的 
手 ， 壬 试 一 下 这 两 种 登录 方式 吧 。 

问题 出 在 键盘 上 : 有 两 个 键 的 键 帽 被 交换 了 位 置 。 当 程序 员 坐 着 
时 ， 他 采用 言 打 的 方式 进行 登录 ， 此 时 间 题 没有 戏 露出 来 。 但 是 ， 当 
他 站 起 来 的 时 候 ， 束 不 得 不 看 着 键盘 输入 ， 也 就 误 入 收 途 了 。 发 现 了 
这 一 点 之 后 ， 一 位 专业 调试 人 员 使 用 一 把 改 锥 交换 了 那 两 个 小 错位 置 
的 键 帽 ， 于 是 一 切 恢复 正解 了 。 

之 加 哥 的 一 个 银行 系统 已 经 正确 运行 了 好 几 个 月 ， 但 是 第 一 次 用 
于 国际 数据 束 出 现 了 非 正常 退出 。 程 序 员 们 花费 了 几 天 的 时 间 来 清理 
代码 ， 但 是 他 们 没有 发 现任 何 导 致 程序 退出 的 错误 命令 。 当 他 们 和 更深 
入 地 观察 该 现象 时 ， 发 现 当 为 厄瓜多尔 这 个 国家 输入 数据 时 程序 出 现 
了 非 正常 退出 。 更 进一步 的 观察 发 现 ， 当 用 户 键入 其 首都 的 名 字 基 多 
(Quito) 时 ， 程 序 将 其 解释 为 退出 请 求 。 

Bob Martin 曾 经 遇 到 过 一 个 “连续 两 轮 仅 首次 运行 正确 ”的 系统 。 系 
统 能 正确 处 理 第 一 个 事务 ， 但 生 在 随后 的 所 有 事务 中 ， 总 是 有 一 个 小 
错误 。 当 系统 重新 局 动 后 ， 又 能 正确 处 理 第 一 个 事务 ， 而 在 随后 的 所 
有 事务 中 又 出 现 错误 。 当 Martin 将 之 形象 地 称 为 “连续 两 轮 仅 首次 运行 
正确 ?时 ， 程 序 开发 人 员 立 即 知道 需要 去 查找 一 个 这 样 的 变量 : 当 程 序 
加 载 蛙 ， 该 变量 的 初始 化 是 正确 的 ; 但 是 在 第 一 个 事务 之 后 没有 正确 
地 复位 。 


在 所 有 的 实例 中 ， 正 确 的 问题 都 可 以 引导 聪明 的 程序 员 快 速 找到 
可 恶 的 错误 :“ 坐 着 和 站 着 时 你 所 做 的 有 何 区 别 ? 我 可 以 看 着 你 按 两 种 
方式 分 别 登录 吗 ? “在 程序 退出 之 前 你 到 底 输 入 了 什么 ? ”程序 在 出 错 
之 前 是 否 曾 正确 运行 ? 正确 运行 了 多 少 次 ? ” 

Rick Lemons 说 ， 他 上 过 的 最 好 的 一 节 程 序 调试 课 是 观看 一 场 魔术 
表演 。 魔 术 师 表演 了 6 个 事实 上 不 可 能 的 戏法 ，Lemons 发 现 自己 开始 有 
点 相信 这 是 真 的 了 。 然 后 ， 他 提醒 自己 ， 所 有 的 这 些 都 是 不 可 能 实现 
的 ， 并 且 开 始 探 究 每 个 戏法 的 明显 矛盾 之 处 。 他 从 目 己 已 知 的 基础 原 
E (物理 学 定律 ) 开始 ， 试 图 发 现 每 个 戏法 的 简单 解释 。 这 种 态度 令 
Lemons 成 为 我 见 过 的 最 优秀 的 调试 人 员 之 一 。 

我 读 过 的 最 好 的 天 于 调试 的 书籍 是 由 Berton Rouech 6 编写 的 The 
Medical Detectives。 该 书 于 1991 年 由 Penguin 出 版 社 出 版 。 书 中 的 主人 
公 们 “调试 ”复杂 的 系统 ， 其 范围 从 病情 一 般 的 病人 到 重病 的 城镇 。 他 
们 解决 问题 的 方法 可 以 直接 应 用 于 调试 计算 机 系统 。 这 些 真实 的 故事 
与 任何 虚构 的 故事 一 样 具 有 吸引 力 。 


(1). 折 中 在 所 有 的 工程 领域 中 都 人 存在。 例如， 汽车 设计 者 可 能 会 通过 增 
加 沉重 的 部 件 ， 用 行驶 里 程 的 减少 来 换取 更 快 的 加 速 。 但 双赢 是 更 好 
的 结 末 。 我 对 目 己 驾驶 过 的 一 辆 小 轿车 做 过 一 番 研 究 ， 我 观察 到 : “BE 
车 基本 结构 重量 的 减少 会 使 各 发 副 部 件 重 量 的 进一步 减少 一 一 其 至 消 
除了 对 某 些 底 副 部 件 的 需求 ， 例 如 转向 助力 系统 。” 


[2]. Michael Jackson (1936 一 ) ， 软 件 工 程 先 驱 。 他 于 20 氟 纪 70 年 代 提 
出 了 影响 深远 的 面 同 数据 结构 的 Jackson 方 法 。 一 一 编者 注 


[3]. Martin Gardner (1914—) ， 美 国 著名 的 科普 作家 ， 主 持 《 科 学 美 
国人 》 eo 写作 了 大 量 文 章 和 图 书 ， 有 世界 影响 。 
y 


F 


[4]. 即 循环 移 位 。 一 -一审 校 者 注 


[5]. Doug McIlroy (1932—) ， 著 名 计算 机 科学 家 ， 美 国 工程 院 院士 ， 
现 为 达 特 茅 斯 学 院 兼 职 教授 。 他 于 1968 年 第 一 个 提出 了 软件 组 件 的 概 
念 。 他 参与 设计 了 PLA 和 C++ 语言 、Multics 和 Unix 操 作 系 统 。Unix 上 许 
多 工具 是 他 开发 的 ， 包 括 dif、echo、sort、spell] 和 join 等 ， 管 道 实现 也 
由 他 首创 。 他 曾 长 期 担任 贝尔 实验 室 计算 技术 研究 部 主任 ， 并 曾 任 
ACM 疼 灵 奖 主席 。 一 编者 注 


[6]. Brian Kernighan (1942—) 著名 计算 机 科学 家 ， 现 为 普林斯顿 大 学 
教授 。 他 与 人 合作 创造 了 Awk 和 AMPL 编 程 语言 ， 对 Unix 和 C 语 言 的 设 
计 也 有 很 大 贡献 。 他 还 与 人 合 写 了 多 部 计算 机 名 若 ， 包 括 与 Ritchie 合 
著 的 The C Programming Language ° 编者 注 


[7]. P.J.Plauger， 和 著名 C/C++ 语 言 专家 ， 现 为 著名 标准 库 开 发 商 
Dinkumware 总 裁 。 他 曾 担任 ISO C 标 准 委 员 会 负责 人 ， 和 车 有 名 车 《C 标 
准 库 》 《中 文 版 由 人 民 邮 电 出 版 社 出 版 ) 。 编者 注 


[8]. Ken Thompson (1943—) ， 著 名 计算 机 科学 家 ，1983 年 图 灵 淆 得 
主 。 现 为 Google 杰 出 工程 师 。 他 是 Unix 操 作 系 统 的 主要 设计 者 ， 并 设 
计 了 C 语 言 的 前 身 B 语 言 。 一 一 编者 注 


[9]. 该 变 位 词 算法 是 由 许多 人 各 目 独 立 发 现 的 ， 至少 可 以 追溯 到 20 世 纪 
60 年 代 中 期 。 


[10]. Don Knuth (1938—) ， 中 文 名 高 德 纳 ， 著 名 计算 机 科学 家 ， 斯 坦 
福 大 学 荣 休 教授 。 因 对 算法 分 析 和 编程 语言 设计 领域 的 贡献 获 1974 年 
图 灵 奖 。 他 是 名 著 The Art of Computer Programming 的 作者 ， 设 计 了 
TEX 排 版 系统 。 编者 注 


[11]. 该 书 第 2 版 身 文 影印 版 已 由 清华 大 学 出 版 社 引 进出 版 ， 中 文书 名 

4 计算 机 程序 设计 艺术 第 3 卷 排序 和 查找 》， 中 译 版 已 由 国防 工业 出 
segs a 《计算 机 程序 设计 艺术 第 3 卷 排序 与 查找 》 ° 
— mA 


[12]. Mike Lesk， 著 名 程序 员 ，ACM 会 士 ， 美 国 工程 院 院士 ， 现 任 
Rutgers 大 学 教授 兼 系 主 任 。 他 在 贝尔 实验 室 工作 期 间 开 发 了 大 量 工 
具 ， 包 括 lex、uucp 和 stdio.h 的 前 身 。 他 领导 了 美国 NSF 数 字 图 书馆 计 
划 ， T a 促 生 了 Google ° 
一 一 编者 ; 


[13], 边栏 在 杂志 的 文章 中 古 处 在 正文 之 外 的 通 单 是 页 边 上 的 一 列 。 
它们 本 质 上 不 是 专栏 的 一 部 分 ， 仅 仅 提供 了 关于 材料 的 一 些 观 点 。 在 
本 书 中 ， 它 们 作为 每 章 的 最 后 一 节 出 现 ， 用 “(边栏 ) ”来 标记 。 


[14]. 原文 为 “Data Structures Programs”， 其 中 structure 为 动词 。 本 章 深 刻 
li 述 了 对 数据 的 理解 和 具体 表现 形式 的 选择 对 程序 的 影响 。 一 -一 编者 
y 


[15]. 平行 数组 是 一 种 老式 数据 结构 ， 通 过 元 素数 相同 且 下 标 对 应 的 一 
ene o 已 经 逐渐 被 结构 (struct) 所 取代 。 一 一 
mAT 


[16]. David Parnas (1941—) ， 软 件 工 程 先 张 ，ACM 会 士 。 他 提出 了 
聚 ”\“ 耦 合 ”\、“ 信 息 隐 藏 ?等 模块 化 设计 思想 ， 这 些 都 已 成 为 面向 对 
象 程序 设计 的 基础 。 编者 注 


7 AS 由 上 海 科技 教 育 出 版 社 出 版 ， 中 文书 名 《怎样 解 
fel 


[18]. Fred Brooks (1931—) ， 著 名 计算 机 科学 家 ， 因 在 计算 机 体系 结 
构 、 操 作 系 统 和 软件 工程 方面 里 程 碑 性 的 贡献 而 荣获 1999 年 图 灵 奖 。 
ale oer BAF A, FDIS MAS (AA 
Į 7 


[19]. Steve McConnel， 著 名 软件 工程 专家 。 曾 长 期 担任 IEEE Software} 
刊 的 主编 和 IEEE 计 算 机 学 会 Professional Practice 委 员 会 主席 。 他 还 是 
ae 所 著 《 代 人 码 大 全 》 产 生 了 广泛 影响 * 一 — 
Z { 


[20]. 该 书 英 文 影印 版 《快速 软件 开发 》 已 由 机 械 工 业 出 版 社 出 版 。 中 
译 版 《快速 软件 开发 一 一 有 效 控制 与 完成 进度 计划 》 已 由 电子 工业 出 
版 社 出 版 。 一 一 编 兰 广 


ae — 《软件 项 目 生 存 指南 》 已 由 清华 大 学 出 版 社 出 


[22]. 如 果 在 评价 短 变量 名 、 二 分 搜索 函数 定义 、 出 错 处 理 以 及 其 他 对 
于 大 型 软件 项 目的 成 功 至 关 重 要 的 编程 风格 问题 时 需要 帮助 的 话 ， 可 
以 参考 习题 5.1 及 其 答案 。 
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23]. David Gries (1939—) ， 著 名 计算 机 科学 家 ，ACM 会 士 ， 现 任 康 
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多 。 一 一 编者 注 


[24]. 该 书 英 文 影印 版 和 中 译 版 已 由 机 械 工 业 出 版 社 引 进出 版 ， 中 文书 
名 为 《程序 设计 实践 》。 一 一 编者 注 


一 个 简单 而 又 功能 强大 的 程序 ， 令 用 户 欣 喜 而 又 不 令 开 发 者 烦 
恼 ， 这 正 是 程序 员 的 终极 目标 ， 也 是 本 书 前 面 5 章 讨论 的 重点 。 

现在 我 们 将 注意 力 转 向 令 人 欣喜 的 程序 的 一 个 具体 的 方面 : 效 
率 。 低 效率 的 程序 令 其 用 户 泪 起 : 等 候 很 长 的 时 间 并 因此 失去 许多 机 
会 。 因 此 ， 下 面 的 儿 章 讨论 提高 程序 性 能 的 几 种 不 同 的 途径 。 

第 6 章 总 结 多 种 方法 及 其 相互 作用 。 随 后 的 3 章 按照 通常 的 次 序 讨 
论 了 3 种 改善 运行 时 间 的 方法 : 

第 7 章 论 述 在 设计 过 程 的 早期 阶段 如 何 使 用 “粗略 估算 ”来 确保 基本 
的 系统 结构 具有 足够 的 效率 。 

第 8 章 讨 论 算法 设计 技术 ， 有 时 候 这 些 技术 可 以 显著 减少 模块 的 运 
行 时 间 。 

第 9 章 讨论 代码 调 优 ， 这 一 步 通 常 在 系统 实现 的 后 期 完成 。 

在 第 二 部 分 的 最 后 ， 我 们 用 第 10 章 讨论 程序 性 能 的 另 一 个 重要 方 
面 : 空间 效率 。 

研究 程序 的 效率 有 3 个 很 充足 的 理由 。 首 先是 其 在 许多 应 用 中 国有 
的 重要 性 。 我 敢 打 财 ， 本 书 的 每 一 个 读者 都 曾经 失望 地 盯 看 监视 亏 ， 
迫切 希望 程序 运行 得 更 快 一 些 。 我 认识 的 一 个 软件 经 理 估计 她 有 一 半 
的 开发 预算 用 于 提高 程序 的 性 能 。 许 多 程序 有 严格 的 时 间 要 求 ， 包 括 
实时 程序 、 大 型 数据 库 系统 和 交互 式 软件 。 

研究 程序 性 能 的 第 二 个 原因 是 教学 意义 。 除 了 实际 好 处 之 外 ， 效 
率 是 很 好 的 训练 手段 。 这 些 划 市 禾 盖 了 从 算法 理论 到 常识 性 技术 (如 


“粗略 估算 ”) 的 各 种 思想 。 主 由 在 于 训练 思维 的 活跃 性 ， 这 在 第 6 章 体 
现 得 尤其 明显 ， 该 章 豆 励 我 们 从 许多 不 同 的 视角 来 考虑 同一 个 问题 。 

通过 其 他 许多 主题 也 能 学 到 类 似 的 东西 。 这 些 昔 也 可 以 围绕 用 户 
界面 、 系 统 健壮 性 或 安全 性 展开 讨论 。 效 率 的 一 个 优点 是 可 以 度量 : 
例如 ， 我 们 中 的 每 个 人 都 会 认可 一 个 程序 的 运行 速度 是 另 一 个 程序 的 
2.5 倍 ， 但 是 当 讨论 用 户 寞 面 时 ， 则 销 党 会 陷入 个 人 喜好 之 争 。 

研究 程序 性 能 的 最 重要 的 原因 用 1986 年 的 电影 《壮志 雇 云 》 (Top 
Gun) 中 的 一 句 经 典 台 词 来 朱 述 最 为 恰当 : “I feel the need...the need for 
speed!”(“ 我 感觉 到 了 需要 ...... 对 速度 的 需要 ! ”) 

本 部 分 内 容 


第 6 章 程序 性 能 分 析 
第 7 章 粗略 估算 
第 8 章 算法 设计 技术 
第 9 章 代码 调 优 
第 10 章 节省 空间 


6 章 程序 性 能 


本 章 后 面 的 三 章 描述 了 提高 运行 时 效率 的 三 种 不 同方 法 。 在 本 章 
中 ， 我 们 将 会 看 到 这 些 方法 如 何 组 合成 一 个 整体 : 每 种 技术 应 用 于 构 
建 计 算 机 系统 的 几 个 设计 层面 之 一 。 我 们 首先 研究 一 个 特定 的 程序 ， 
然后 采用 更 加 系统 化 的 观点 来 看 每 系统 设计 的 各 个 层面 。 


6.1 实例 研究 


1985 年 1 月 ，SIAM Journal on Scientific and Statistical Computing 第 6 
卷 第 1 期 的 第 85 页 一 第 103 页 上 刊登 了 Andrew Appel [1] 的 文章 “An 
efficient program for many-body simulations” ° 通过 在 几 个 不 同 的 层面 上 
进行 改进 ，Andrew Appel 将 程序 的 运行 时 间 从 一 年 缩短 为 一 天 。 

该 程序 解决 了 计算 重力 场 中 多 个 物体 相互 作用 的 经 典 “n 体 问题 ”。 
给 定 物体 的 质量 、 初 始 位 置 和 速度 ， 该 程序 可 以 对 三 维 空间 中 n 个 物体 
的 运动 进行 仿真 。 想 象 一 下 ， 这 些 物体 可 以 是 行星 、 恒 星 或 星系 。 在 
二 维 空间 中 ， 输 入 可 能 类 似 于 下 图 : Appel 的 论文 讨论 了 n=10 000 时 的 
两 个 天 体 物理 学 问题 。 通 过 人 研究 仿真 运行 ， 物 理学 家 可 以 测试 理论 与 
天 文 观测 的 吻合 程度 。 〈 知 要 了 解 该 问题 的 更 多 细节 和 基于 Appel 方 法 
的 后 续 解 决 方案 ， 参 见 Pfalzner 和 Gibbon 的 Many-Body Tree Methods in 
Physics 一 书 ， 该 书 由 剑桥 大 学 出 版 社 于 1996 年 出 版 。) 


显而易见 的 仿真 程序 将 时 间 划 分 成 小 “ 步 »， 并 计算 每 个 物体 在 每 
一 步 的 移动 情况 。 由 于 程序 需要 计算 每 个 物体 对 其 他 每 一 个 物体 的 吸 
引力 ， 每 一 时 间 步 的 开销 正比 于 n* 。Appel 估 算出 当 n=10 000 时 ， 该 算 
法 在 他 的 计算 机 上 运行 1000 个 时 间 步 大 约 需要 一 年 的 时 间 。 


Appel 最 终 的 程序 在 不 到 一 天 的 时 间 内 就 解决 了 该 问题 (加 速 系 数 
为 400) 。 从 那 以 后 ， 许 多 物理 学 家 都 采用 了 他 的 技术 。 下 面 简要 总 结 
一 下 他 的 程序 ， 我 们 名 略 的 许多 重要 细 市 可 以 在 他 的 论文 中 找到 。 该 
方法 所 传达 出 的 重要 信息 是， 可 以 通过 在 儿 个 不 同 层面 上 的 改进 ， 来 
获得 巨大 的 加 速 。 

算法 和 数据 结构 。Appel 首先 考虑 要 选择 一 个 高 效 的 算法 。 通 过 把 
物体 表示 为 二 叉 树 的 叶 结 点 ， 他 将 每 个 时 间 步 O(n? ) 的 开销 减少 为 O(n 
log n) [2]。 更 高 层 的 结 点 为 物体 复 。 作 用 于 特定 物体 上 的 力 可 以 使 用 
大 物体 复 所 施加 的 力 来 近似 ，Appel 证 明了 这 样 的 近似 不 会 影响 仿真 的 
正确 性 。 该 二 叉 树 有 天 约 log n 层 ， 最 终 的 O(n log n) 算 法 与 8.3 记 讨论 的 
分 治 算法 在 思想 上 是 相似 的 。Appel 的 这 一 改进 使 得 程序 的 运行 时 间 缩 
短 为 原来 的 十 二 分 之 一 。 

算法 调 优 。 这 一 简单 的 算法 总 是 使 用 小 时 间 步 处 理 两 个 粒子 相互 
接近 的 罕见 情况 。 树 数据 结构 允许 我 们 用 一 个 特殊 的 函数 来 识别 并 处 
理 这 样 的 粒子 对 。 这 样 就 使 得 时 间 步 加 倍 ， 从 而 使 程序 的 运行 时 间 减 


+< 


数据 结构 重组 。 如 条 用 表示 初始 物体 集合 的 树 来 表示 后 续 的 集 
合 ， 效 果 会 很 差 。 在 每 个 时 间 步 对 数据 结构 进行 重新 配置 ， 仅 需要 人 花 
费 很 少 的 时 间 ， 却 可 以 减少 局 部 计算 的 次 数 ， 从 而 使 忌 的 运行 时 间 减 


JE 


代码 调 优 。 由 于 树 数据 结构 提供 了 额外 的 数值 精度 ，64 位 的 双 精 
度 浮 点 数 可 以 用 32 位 单 精 度 浮 点 数 代替 ， 这 一 改变 使 得 运行 时 间 减 
半 。 对 程序 的 性 能 监视 表明 ，98% 的 运行 时 间 都 花 在 一 个 函数 上 ; 使 用 
汇编 语言 重新 编写 该 范 数 ， 可 以 将 运行 速度 提升 为 原来 的 2.5 倍 。 

硬件 。 在 经 过 上 述 所 有 改进 之 后 ， 程 序 在 价值 25 万 美元 的 部 门 机 
器 上 运行 仍 需 要 两 天 的 时 间 ， 而 且 该 程序 需要 运行 好 几 次 。 于 是 ， 


Appel 将 程序 转移 到 一 个 稍 贵 一 些 的 、 装 配 有 加 速 器 的 机 器 上 运行 ， 这 
使 得 运行 时 间 再 次 减 半 。 

上 面 描述 的 所 有 改进 累积 起 来 就 得 到 了 总 的 加 速 系 数 400。Appel 
最 终 的 程序 完成 10 000 个 物体 的 仿真 需要 大 约 一 天 的 时 间 。 但 是 ， 加 速 
是 有 代价 的 。 简 单 的 算法 也 许 只 要 几 十 行 代码 就 可 以 实现 了 ， 而 快速 
程序 则 需要 1 200 行 代码 。Appel 花 了 几 个 月 的 时 间 才 完成 了 该 快速 程序 
的 设计 和 实现 。 加 速 的 情况 汇总 在 下 表 中 。 


设计 层面 
算法 和 数据 结构 


改 进 
二 叉 树 使 得 O(n”) 的 运行 时 间 缩 短 为 
O(nlogn) 


算法 调 优 使 用 较 大 时 间 步 
数据 结构 重组 产生 适合 树 算法 的 簇 


与 系统 无 关 的 代码 调 优 
与 系统 相关 的 代码 调 优 
Wet 


使 用 汇编 语言 重新 编写 关键 函数 
使 用 浮 点 加 速 器 


该 表格 说 明了 各 种 加 速 之 间 的 几 种 依赖 关系。 最 主要 的 加 速 是 使 
用 树 数 据 结构 ， 它 是 后 续 三 个 改进 的 前 提 条 件 。 最 后 的 两 个 加 速 (使 
用 汇编 语言 和 使 用 浮 点 加 速 右 ) 在 本 例 中 与 树 数 据 结 构 无 天 。 树 数据 
结构 对 超级 计算 机 的 运行 时 间 影 响 较 小 (超级 计算 机 的 管道 体系 结构 
非常 适合 原先 的 简单 算法 ) ; 算法 加 速 并 不 是 一 定 要 独立 于 硬件 的 。 


6.2 设计 层面 


一 个 计算 机 系统 可 以 在 很 多 层面 上 进行 设计 : 从 高 层 的 软件 结构 
一 直 深 入 到 硬件 中 的 晶体 管 。 下 面 的 总 结 是 对 设计 层面 的 直观 导 引 ， 
请 不 要 将 其 看 作 正 式 的 分 类 。 [3] 


问题 定义 。 追 求 快速 系统 ， 可 能 在 定义 该 系统 需要 解决 的 问题 时 
就 已 经 注定 成 败 了 。 在 我 写 这 一 段 文章 的 那天 ， 一 个 供 货 商 告诉 我 他 
无 法 供 货 ， 因 为 采购 单 在 本 部 门 和 本 公司 采购 部 之 间 的 某 个 环节 弄 
了 。 大 量 类 似 的 采购 单 导 致 采购 完全 无 法 进行 ， 因 为 本 部 门 中 有 50 个 
人 都 各 和 目下 了 单 。 在 部 门 管理 人 员 和 公司 的 采购 部 进行 了 友好 协商 以 
后 ，50 份 采购 单 被 合并 成 一 份 大 采购 单 。 这 样 不 仅 使 得 两 个 部 门 的 管 
理工 作 得 以 简化 ， 也 使 得 计算 机 系统 某 一 部 分 的 运行 速度 变 成 了 原来 
的 50 倍 。 优 秀 的 系统 分 析 员 应 该 时 刻 留意 此 类 改进 ， 无 论 在 系统 部 署 
之 前 还 是 之 后 。 

有 时候 ， 民 好 的 问题 定义 可 以 避免 用 户 对 问题 需求 的 过 高 估计 。 
第 1 章 介 绍 了 如 何在 排序 程序 中 通过 把 一 些 关 于 输入 的 重要 事实 考虑 进 
来 ， 从 而 使 运行 时 间 和 程序 长 度 都 减少 一 个 数量 级 。 问 题 定 义 和 程 序 
效率 之 间 具 有 复杂 的 相互 影响 。 例 如 ， 民 好 的 错误 恢复 能 力 会 使 编译 
亏 运 行 得 稍 慢 一 些 ， 但 是 通 闻 会 由 于 减少 了 总 的 编译 识 数 而 缩短 总 的 
时 间 。 

系统 结构 。 将 大 型 系统 分 解 成 和 模块， 也许 是 决定 其 性 能 的 最 重要 
的 单个 因素 。 在 构建 出 整个 系统 的 框架 以 后 ， 设 计 者 需要 完成 简单 的 
“粗略 估算 ”( 将 在 第 7 章 讨 论 ; ， 以 确保 程序 的 性 能 在 正确 的 范围 之 
内 。 由 于 提高 新 系统 的 效率 比 改 进 已 有 系统 的 效率 要 容易 得 多 ， 所 
以 ， 性 能 分 析 在 系统 设计 阶段 至 关 重 要 。 

算法 和 数据 结构 。 获得 快速 模块 的 关键 通 音 是 表示 数据 的 结构 和 
操作 这 些 数据 的 算法 。Appel 程 序 的 最 大 改进 就 是 用 O(n log n) 算 法 取代 
TOR ) 算 法 。 第 2 章 和 第 8 章 讨论 了 相似 的 加 速 方法 。 

代码 调 优 。Appel 对 代码 做 了 一 些小 改进 ， 束 获得 了 5 倍 的 加 速 。 
第 9 章 专 门 讨论 这 个 问题 。 

系统 软件 。 有 时 候 改变 系统 所 基于 的 软件 比 改变 系统 本 吴 更 容 
易 。 对 于 系统 中 的 查询 操作 ， 新 的 数据 库 系统 是 否 更 快 ? 对 于 当前 任 


务 的 实时 性 限制 ， 男 一 个 操作 系统 是 否 更 合适 ? 所 有 可 能 的 编译 右 优 
化 都 局 用 了 吗 ? 

硬件 。 更 快 的 硬件 可 以 提高 系统 的 性 能 。 通 用 计算 机 通常 都 足够 
快 了 ， 可 以 通过 在 同一 处 理 独 或 多 处 理 器 上 提高 时 钟 速度 来 实现 加 
速 。 声 卡 、 显 卡 和 其 他 的 卡 将 中 央 处 理 紫 的 工作 转移 到 小 型 的 、 快 速 
的 专用 处 理 右 上 ， 游 戏 设计 着 特别 善于 使 用 这 些 设备 来 实现 巧妙 的 加 
速 。 例 如 ， 专 用 的 数字 信号 处 理 器 (DSP) 可 以 使 廉价 的 玩具 和 家 用 电 
如 能 与 人 交流 。Appel 给 现 有 机 可 深 加 浮 点 加 速 紫 的 解决 方案 古 这 两 个 
极端 方法 的 一 个 折 中 。 


6.3 原理 


由 于 预防 远 胜 于 治疗 ， 我 们 应 当 牢 记 Gordon Bell [4] 在 为 DEC 公司 
设计 计算 机 时 所 观察 到 的 事实 ; 

计算 机 系统 中 最 廉价 、 最 快速 且 最 可 靠 的 元 件 是 根本 不 存在 的 。 

这 些 缺 失 的 元 件 同 时 也 是 最 精确 (从 不 出 错 )、 最 安全 (无 法 入 
侵 ) 且 最 容易 设计 、 文 档 化 、 测 试 和 维护 的 。 简 单 设计 的 重要 性 怎么 
强调 都 不 过 分 。 

当 程 序 性 能 问题 无 法 回避 时 ， 考 虚设 计 层 面 会 有 助 于 程序 员 集 中 
精力 解决 问题 。 

如 果 仅 需要 较 小 的 加 速 ， 就 对 效果 最 佳 的 层面 做 改进 。 对 于 歼 
率 ， 大 多 数 程序 员 都 有 自己 的 下 意识 反应 :“ 改 变 算法 ”或 “调整 排队 规 
则 ”会 脱口 而 出 。 决 定 在 某 一 特定 层面 着 手 之 前 ， 请 先 考 虑 一 下 所 有 可 
能 的 设计 层面 ， 然 后 选择 “性 价 比 ?最 高 的 那 一 个 : 投入 最 小 的 精力 就 
可 以 获得 最 大 加 速 系数 的 那个 设计 层面 。 

如 有 果 需 要 较 大 的 加 速 ， 就 对 多 个 层面 做 改进 。 要 取得 Appel 那 样 的 
大 幅 加 速 ， 必 须 从 各 个 不 同 的 方 同 对 问题 进行 深入 人 研究， 这 通常 需要 


付出 巨大 的 努力 。 如 果 在 任 一 设计 层面 上 的 改进 都 独立 于 其 他 层面 的 
改进 ， 那 么 各 个 层面 上 的 加 速 系数 可 以 相 乘 。 

第 7 章 、 第 8 章 和 人 第 9 章 讨论 了 在 3 个 不 同 设计 层面 上 的 加 速 ， 在 考 
虑 各 个 独立 的 加 速 时 要 有 全 局 观念 。 


6.4 习题 


1. 假 设 现 在 的 计算 机 比 Appel 做 实验 时 所 用 的 计算 机 快 1 000 倍 。 如 
果 使 用 相同 的 总 计算 时 间 〈 大 约 一 天 ) ， 对 于 O(m ) 算 法 和 O(n log n) 算 
法 ， 问 题 的 规模 n 分 别 增加 到 多 少 ? 

2. 在 各 个 不 同 的 设计 层面 讨论 下 列 问 题 的 加 速 : 对 500 位 的 整数 进 
行 因子 分 解 、 健 立 叶 分 析 、 模 拟 VLSI 电 路 、 在 大 文本 文件 中 搜索 给 定 
字符 串 。 讨 论 各 个 加 速 方法 之 间 的 依赖 性 。 

3.Appel 发 现 ， 将 双 精 度 运算 改 为 单 精度 运算 ， 可 以 令 他 的 程序 运 
行 速度 加 倍 。 选 择 一 个 合适 的 测试 ， 在 你 的 计算 机 系统 中 度量 这 种 加 
速效 果 。 

4. 本 章 集中 讨论 了 运行 时 效率 。 程 序 性 能 的 其 他 常见 度量 包括 容错 
性 、 可 靠 性 、 安 全 性 、 开 销 、 开 销 /性 能 、 精 度 以 及 对 用 户 错误 的 健壮 
性 。 讨 论 如 何在 几 个 不 同 的 设计 层面 上 对 这 些 问题 进行 改进 。 

5. 讨 论 在 不 同 的 设计 层面 上 使 用 最 新 技术 所 需 的 开销 。 要 求 包括 所 
有 可 度量 的 开销 : 开发 时 间 CAA) 、 可 维护 性 和 费用 。 

6. 有 这 样 一 句 流传 很 久 的 谚语 : “效率 永远 排 在 正确 性 后 面 一 如 
果 程 序 的 运行 结果 是 错误 的 ， 速 度 再 快 也 没有 用 。” 这 句 话 正确 吗 ? 

7. 讨 论 如 何 从 不 同 的 层面 处 理 日 常生 活 中 的 问题 ， 如 交通 事故 导致 


6.5 深入 阅读 


Butler Lampson [5] 的 “Hints for Computer System Design” 一 文 发 表 
在 1984 年 1 月 1 日 的 IEEE Software 1 上 。 其 中 的 许多 提示 都 是 关于 性 能 
的 。 他 的 论文 特别 适合 于 集成 硬件 和 软件 的 计算 机 系统 设计 。 在 本 书 
行将 出 版 之 际 ，www.research.microsoft.com/~lampson/ 上 提供 了 这 篇 论 


文 的 副本 。 


第 7 章 粗略 估算 


在 一 次 关于 软件 工程 的 有 趣 讨论 中 ，Bob Martin [6] 突然 问 我 : “ 密 
西西 比 河 一 天 流出 多 少 水 ? ”因为 在 这 之 前 我 正 洗 耳 恭 听 他 的 真知 灼 
见 ， 所 以 ， 我 有 礼貌 地 止 住 自己 的 惊讶 说 : “请 再 说 一 沉 。” 当 他 重复 
这 个 问题 的 时 候 ， 我 意识 到 自己 别 无 选择 ， 只 有 迁就 一 下 这 个 可 怜 的 
家 伙 。 很 明显 他 已 经 在 经 营 大 型 软件 企业 的 巨大 压力 下 月 并。 

我 的 回答 大 致 如 下 。 我 估算 出 河 的 出 口 大 约 有 1 英里 (1 英里 =1.609 
WE) 宽 和 可 能 20 英 尺 (1 英尺 =0.305 米 ) 深 〈 即 1250 英 里 ) 。 我 猜测 
河水 的 流速 是 每 小 时 5 英里 ， 或 者 说 每 天 120 贡 里。 由 乘 式 

1 英里 x1/250 英 里 x120 贡 里 /天 3 1/2 英 里 3 /天 

可 知 ， 密 西西 比 河 每 天 大 约 流出 半 立 方 英里 水 ， 误 差 在 一 个 数量 
级 之 内 。 但 是 这 又 能 说 明 什 么 呢 ? 

这 时 候 ，Martin 从 桌子 上 拿 起 一 份 他 的 公司 为 夏季 奥林匹克 运动 会 
构建 的 通信 系统 提案 ， 并 进行 了 一 系列 类 似 的 计算 。 在 我 们 谈话 的 时 
候 ， 他 通过 度量 给 自己 发 送 一 封 单字 符 邮 件 所 需要 的 时 间 ， 估 算出 了 
一 个 关键 参数 ， 其 他 的 数 则 都 是 直接 取 目 提案 ， 因 此 相当 精确 。 他 的 
计算 与 上 面 有 天 密 西西 比 河 的 计算 一 样 答 单 ， 但 更 能 说 明 问 题 。 计 算 
显示 ， 即 使 在 宽松 的 假设 下 ， 提 案 中 的 系统 也 只 有 在 每 分 钟 至 少 有 120 
秒 的 情况 下 才能 正常 运转 。 前 一 天 他 已 经 将 该 设计 驳回 重 做 了 。 (这 


次 对 话 大 约 发 生 在 奥林匹克 运动 会 开幕 前 一 年 ， 最 终 的 系统 在 奥 林 匹 
克 运 动 会 中 运行 得 很 好 ， 没 有 出 现任 何故 障 。) 

这 束 是 Bob Martin 引 入 “粗略 估算 ”这 一 工程 技术 的 神奇 方式 (或 许 
有 点 古怪 ) 。“ 狂 略 信 算 ”在 工程 院 校 中 是 标准 课程 ， 对 多 数 从 业 工 程 
师 来 说 则 十 谋生 的 必 备 技能 。 壮 慨 的 是 ， 在 实际 计算 中 该 方法 往往 被 
忽略。 


7.1 基本 技巧 


下 面 这 些 提示 在 进行 粗略 估算 时 很 有 用 。 
两 个 答案 比 一 个 答案 好 。 当 我 问 Peter Weinberger [7] 密西西比 河 每 
天 流出 多 少 水 时 ， 他 回答 :“ 与 流入 的 一 样 多 。?” 随 后 ， 他 估算 出 密 西 
西 比 流域 的 面积 大 约 为 1000 英 里 xl 000 英 里 ， 每 年 的 降雨 径 流量 大 约 
为 1 英尺 (或 者 说 1/5 000 英 里 ) 。 于 是 可 以 得 到 如 下 等 式 : 
1 000 英 里 x1 000 英 里 x1/5 000 英 里 /年 200 英 里 3 /年 
200 英 里 3/ 年 /400 天 /年 s1/2 英 里 3/ 天 
或 者 说 每 天 半 立 方 英 里 多 一 点 。 仔 细 检 查 所 有 的 计算 是 很 重要 
的 ， 对 于 快速 估算 尤其 如 此 。 
我 们 来 做 一 个 三 重 检验 吧 。 某 年 鉴 记载 ， 密 西西 比 河 每 秒 的 排水 
量 是 640 000 立 方 英尺 。 从 该 数据 出 发 有 如 下 计算 ; 
640 000 英 尺 3 / 秒 x3 600 秒 /小 时 zz2.3x10? ÆR 3 /小 时 
2.3x109 英尺 3 /小 时 x24 小 时 /天 s6x101 RER 3/ 天 
6x1010 英尺 3 /天 / (5 000 英 尺 / 英 里 ) 3 s6x1010 英尺 3/ 天 / 
(125x109 英尺 3/ 英 里 3 ) 


x60/125% E 3 /天 
AN1/2 英里 3/ 天 


两 次 估算 的 结果 很 接近 ， 而 且 都 与 根据 年 鉴 得 到 的 计算 结 采 很 接 
近 ， 这 真是 够 巧 的 。 

快速 检验 。Polya 在 他 的 How to Solve It 一 书 中 用 了 3 页 篇 幅 讨 论 “ 量 
纲 检 验 ”。 他 将 该 方法 描述 为 一 种 “检验 几何 或 物理 等 式 的 快速 而 有 效 
的 著名 方法 *。 第 一 个 法 则 是 和 式 中 各 项 的 量 纲 必须 相同 ， 这 个 量 纲 同 
时 也 是 最 终 求 和 结果 的 量 纲 一 一 可 以 把 英尺 相 加 得 到 英尺 ， 但 是 不 能 
把 秒 和 磅 相 加 。 第 二 个 法 则 是 乘积 的 量 纲 是 各 乘 数 量 纲 的 乘积 。 上 面 
的 例子 同时 遵循 这 两 条 法 则 ; 如 采 不 考虑 常数 ， 以 下 乘 式 具有 正确 的 
形式 : 


(英里 十 英里 ) x 英 里 x 英 里 /天 = 英里 3 /天 
对 于 跟 上 面 类 似 的 复杂 表达 式 ， 一 个 简单 的 表格 可 以 帮助 我 们 明 
了 其 量 纲 。 要 进行 Weinberger 的 计算 ， 首 先 列 出 3 个 原始 的 因数 。 


1 000 英里 1 000 英里 1 英里 


5000 年 


接 下 来 通过 约 分 商 化 表达 式 ， 得 到 运算 的 结 东 200 英 里 3/ 年 。 


S960 年 


14000 =F | 1000 -= 200 WẸ? 


然后 除 以 (近似 的 ) 常数 400 天 /年 。 


一 + 一 34/200 KP? 年 
5-600 年 400 天 


再 次 约 分 就 得 到 了 熟悉 的 结果 :每 天 半 立 方 英 里 。 


这 样 的 列表 计算 可 以 使 量 纲 一 目 了 然 。 


量 纲 检验 检验 的 是 等 式 的 形式 。 对 于 乘除 法 ， 可 以 使 用 计算 尺 时 
代 的 一 种 古老 方法 来 检验 ， 分别 计算 第 一 个 数位 和 指数 。 对 于 加 法 ， 
可 以 进行 多 种 快速 检验 。 


3142 3142 3142 
2718 2718 2718 
+1123 +1123 +1123 
983 6982 6973 


第 一 个 和 的 数位 过 少 ， 而 第 二 个 和 在 最 低 有 效 位 出 错 了 。“ 侈 九 
法 ”揭示 出 了 第 三 个 例子 中 的 错误 : 三 个 加 数 的 数字 总 和 对 9 取 模 得 8， 
而 和 数 的 数字 总 和 对 9 取 模 得 7。 在 正确 的 加 法 中 ， 加 数 的 数字 总 和 与 
和 数 的 数字 总 和 模 9 相 等 。 

最 重要 的 是 ， 不 要 忘记 常识 性 的 东西 ， 要 对 诸如 密西西比 河 每 天 
流出 450 升 水 之 类 的 计算 表示 怀疑 。 

经 验 法 则 。 我 最 初 是 在 一 节 会 计 课 上 了 解 到 “72 法 则 ”的 。 假 设 以 
年 利率 r% 投 资 一 笔 钱 y 年 ， 金 融 版 本 的 “72 法 则 ?指出 ， 如 果 rxy= 72, 
那么 你 的 投资 差不多 会 翻 倍 。 该 近似 相当 精确 : 以 年 利率 6% 投 资 1 000 
美元 12 年 ， 可 得 到 2 012 美 元 ; 以 年 利率 8% 投 资 1 000 美 元 9 年 ， 可 得 到 
1999 美 元 。 

72 法 则 用 于 估算 指数 过 程 的 增长 非常 便利 。 如 果 一 个 盘子 里 的 菌 
群 以 每 小 时 3% 的 速率 增长 ， 那 么 其 数量 每 天 都 会 翻 倍 。 翻 倍 使 程序 员 
回忆 起 了 熟悉 的 经 验 法 则 : 由 于 210 =1 024，10 次 翻 倍 大 约 是 1 000 
倍 ，20 次 翻 倍 大 约 是 100 万 倍 ，30 次 翻 倍 大 约 是 10 亿 倍 。 


假设 一 个 指数 程序 解决 规模 为 n=40 的 问题 需要 10 秒 的 时 间 ， 并 且 
n 每 增加 1 运行 时 间 就 增加 12% (我 们 也 许可 以 通过 在 对 数 坐标 纸 上 描 点 
的 方法 来 知道 这 一 点 ) 。72 法 则 告诉 我 们 ，n 每 增加 6， 运 行 时 间 就 加 
倍 。 或 者 ，n 每 增加 60， 运 行 时 间 就 增加 为 原来 的 1 000 倍 。 于 是 ， 当 mn 
二 100 时 ， 程 序 将 运行 10 000 秒 ， 或 者 说 几 个 小 时 。 但 是 当 n 增 加 到 160 
时 ， 运 行 时 间 增 加 到 10” 秒 是 什么 概念 呢 ? 这 到 底 是 多 长 时 间 ? 

你 可 能 会 觉得 难以 记 住 一 年 有 3.155x107 秒 。 而 另 一 方面 ， 要 忘记 
Tom Duff 的 便捷 经 验 法 则 也 很 不 容易 : 在 误差 不 超过 于 分 之 五 的 情况 
Fa 

n 秒 就 是 一 个 纳 世纪 。 [8] 

由 于 指数 程序 需要 运行 107 秒 ， 所 以 我 们 应 该 做 好 等 上 大 约 4 个 月 
时 间 的 准备 。 

实践 。 与 其 他 许多 活动 一 样 ， 估 算 技 巧 只 能 通过 实践 来 提高 。 沧 
试 本 章 末尾 的 习题 以 及 附录 B 中 的 估算 测试 (我 曾经 做 过 一 个 类 似 的 测 
试 ， 该 测试 给 我 上 了 非常 必要 的 一 课 ， 使 我 学 会 了 谦虚 地 看 待 自己 的 
估算 能 力 ) 。7.8 节 讨论 了 日 常生 活 中 的 速算 。 多 数 工作 场合 都 提供 了 
大 量 的 快速 估算 机 会 。 某 只 箱子 中 包装 用 的 发 泡 塑 料 球 有 多 少 个 ? 在 
你 的 公司 中 人 们 每 天 需要 花 多 少时 间 来 排队 等 候 上 午 茶 、 午 餐 、 影 印 
机 或 者 其 他 类 似 的 东西 ? 这 些 时 间 又 消耗 公司 多 少 薪 水 ? 下 次 你 在 午 
餐桌 边 百 无 聊 赖 的 时 候 ， 可 以 问 问 你 的 同事 密西西比 河 每 天 流出 多 少 
水 。 


` 


7.2 PERRET 


现在 来 看 一 个 速算 的 例子 。 数 据 结构 (链表 或 散 列 表 等 中 的 结 
点 中 存储 着 一 个 整数 和 一 个 指向 另 一 结 点 的 指针 。 


struct node { int i; struct node *p; }; 


请 粗略 估算 : 两 百 万 个 这 样 的 结 点 是 否 可 以 装 入 128 MB 内 存 的 计 
算 机 中 ? 

查看 系统 性 能 监视 右 可 知 ， 我 机 右上 的 128 MBA TME RG 85 
MB 空 则 。 (我 通过 运行 第 2 章 的 向 量 旋转 程序 并 观察 何 时 因 内 存 不 够 
用 而 开始 使 用 磁 强 来 验证 了 这 一 点 。) 但 是 一 个 结 点 占用 多 少 内 存 
WE? 在 过 去 的 16 位 机 时 代 ， 一 个 指针 和 一 个 整数 共 占 用 4 字 方 ; 在 我 编 
写 这 本 书 的 时 候 ，32 位 的 整数 和 指针 已 经 非常 普遍 ， 因 此 我 预计 答案 
ESF; 有 时 我 还 会 在 64 位 模式 下 编译 程序 ， 所 以 还 有 可 能 占用 16 字 
节 。 我 们 可 以 使 用 如 下 的 一 行 C 语 句 来 找 出 在 任何 特定 系统 中 占用 的 字 

printf("sizeof(struct node)=%d\n",sizeof(struct node)); 
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结 点 总 共 只 需要 16 MB 的 空间 ， 很 轻松 地 束 可 以 装 入 85 MB 的 空 几 内存 
中 。 

但 是 ， 当 我 使 用 两 百 万 条 这 样 的 8 字 世 记录 时 ， 为 什么 机 器 上 的 
128 MB 内 存 会 像 疯 了 一 样 不 够 用 呢 ? 问题 的 关键 是 我 使 用 了 C 语 言 
的 malloc 函 数 (类 似 于 C++ 中 的 new 运 算 符 ) 来 为 这 些 记 录 动 态 分 配 空 
间 。 我 曾 假定 那些 8 字 市 的 记录 都 额外 占用 了 8 字 届 的 空间 ， 因 此 所 有 
这 些 结 点 预计 共 需 要 约 32 MB 的 空间 。 事 实 上 每 个 结 点 多 占用 了 40 字 节 
的 空间 ， 于 是 每 条 记录 就 占用 了 48 个 字 节 “。 这 样 一 来 ， 两 百 万 条 记录 
就 需要 使 用 总 计 96 MB 的 空间 。 〈 但 是 在 其 他 系统 和 编译 器 上 ， 每 条 记 
RIMS HABA o) 

附录 C 搬 述 了 一 个 用 于 探测 常用 数据 结构 空间 开销 的 程序 。 该 程序 
输出 的 第 一 部 分 由 sizeof 操 作 符 构 成 : 


sizeof(char)=1 sizeof(short)=2 sizeof(int)=4 


sizeof(float)=4 sizeof(struct *)=4 sizeof(long)=4 
sizeof(double)=8 


我 在 自己 的 32 位 编译 器 上 也 精确 地 估计 出 了 这 些 值 。 进 一 步 的 实 
验 度量 出 了 由 存储 分 配器 返回 的 连续 指针 之 间 的 差别 ， 这 一 差别 是 Xx 
记录 大 小 的 一 种 看 似 合理 的 猜测 。 (还 应 该 使 用 其 他 的 工具 来 验证 这 
一 粗略 的 猜测 。) 现在 我 明白 了 ， 如 果 使 用 这 种 耗费 空间 的 分 配器 ， 
1~12 字 广 的 记录 需要 消耗 48 字 节 的 内 存 空间 ，13~28 字 节 的 记录 需要 消 
耗 64 字 节 的 内 存 空间 ， 依 此 类 推 。 我 们 将 在 第 10 章 和 第 13 章 中 再 次 讨 
论 这 个 空间 模型 。 

下 面 再 做 一 个 速算 的 测验 。 已 知 某 数值 算法 的 运行 时 间 主 要 取决 
于 其 n3 次 的 开 方 运算 ， 这 里 n=1 000。 大 约 需要 多 长 时 间 才 能 完成 10 亿 
次 开 方 运算 呢 ? 

为 了 在 我 自己 的 系统 中 得 到 答案 ， 我 从 下 面 的 简单 C 程 序 开始 : 


#include <math.h> 


-于 


int main(void) 

{ int isn = 1000000; 

float fa; 

for (i = 0; i < n; i++) 
fa = sqrt(10.0); 

return 0; 

} 

我 运行 该 程序 ， 并 用 一 条 命令 来 报告 其 运行 时 间 。 (我 在 计算 机 
旁边 放 了 一 块 昌 电子 表 来 检验 该 运行 时 间 。 电 子 表 的 表 带 坏 了 ， 但 是 
具有 秒表 功能 。) 我 发 现 程序 进行 百 万 次 开 方 运算 大 约 需要 0.2 秒 ， 进 
行 千 万 次 开 方 运算 大 约 需要 2 秒 ， 进 行 亿 次 开 方 运算 大 约 需要 20 秒 ; 由 
此 推断 进行 10 亿 次 开 方 运算 大 约 需 要 200 秒 的 时 间 。 

但 是 在 实际 的 程序 中 ， 一 次 开 方 运算 真 的 需要 200 纳 秒 吗 ? 实际 的 
程序 可 能 会 慢 很 多 : 或 许 是 因为 开 方 函数 缓存 了 最 近 的 参数 作为 计算 
的 起 始 值 ;， 寄 布 望 于 用 相同 的 参数 来 重复 调用 一 个 函数 以 减少 运行 时 


间 不 太 现实 。 另 一 方面 ， 实 际 的 程序 也 可 能 会 快 很 多 : 我 在 编译 该 程 
序 的 时 候 禁用 了 优化 功能 〈 优 化 会 删除 计时 循环 ， 进 而 导致 运行 时 间 
始终 为 零 ) 。 附 录 C 描 述 了 如 何 扩展 这 个 小 程序 ， 来 产生 在 给 定 系 统 
执行 基本 C 运 算 所 需 时 间 开 销 的 整 页 描述 。 

网 络 的 速度 到 底 有 多 快 ? 我 键入 ping machine-name 进 行 测试 。ping 
本 楼 的 机 器 需要 几 上 毫秒 的 时 间 ， 因 此 这 也 代表 了 启动 时 间 。 运 气 好 的 
时 候 ， 我 可 以 在 70 毫秒 的 时 间 内 ping 上 美国 另 一 侧 海岸 的 计算 机 (以 
光速 完成 这 段 往返 5 000 英 里 的 行程 大 约 需 要 27 毫 秒 ) ; 运气 不 好 的 时 
候 ， 会 在 等 待 1 000 训 秒 之 后 出 现 超时 。 对 大 型 文件 复制 时 间 的 度量 表 
明 ，10 Mbit/s 的 以 太 网 每 秒 可 以 传送 1 MB 的 内 容 (也 就 是 说 ， 达 到 了 
其 潜在 带宽 的 80%) ; 类 似 地 ，100 Mbit/s 的 以 太 网 每 秒 可 以 传送 10 
MB 的 内 容 。 

可 以 通过 一 些小 实验 来 获得 关键 参数 。 数 据 库 设计 者 应 当知 道 读 
写 记 录 、 连 接 各 种 表格 所 需 的 时 间 。 图 形 程序 员 应 当知 道 关 键 屏幕 操 
作 的 开销 。 今 天 花 一 点 时 间 来 做 这 些小 实验 是 值得 的 ， 因 为 它们 能 帮 
助 我 们 在 将 来 作出 明智 的 决策 ， 从 而 节省 更 多 的 时 间 。 


7.3 安全 系数 


计算 的 输入 决定 了 其 输出 的 质量 。 基 于 民 好 的 数据 ， 售 单 的 计算 
也 可 以 得 到 精确 的 计算 结 末 ， 这 些 计算 结 采 有 时候 符 别 有 用 。Don 
Knuth 曾 经 编写 过 一 个 磁盘 排序 程序 ， 却 发 现 其 运行 时 间 是 他 预先 计算 
出 来 的 时 间 的 两 倍 。 经 过 细致 的 检查 ， 他 找 出 了 问题 所 在 : 由 于 一 个 
软件 错误 ， 系 统 中 用 了 一 年 的 那些 磁盘 的 运转 速度 仅 为 其 额定 速度 的 
一 半 。 修 正 了 该 错误 之 后 ，Knuth 的 排序 程序 的 运行 速度 与 预期 的 一 样 
快 了 ， 而 且 其 他 与 磁 强 紧密 相关 的 程序 也 运行 得 更 快 了 。 


不 过 ， 漫 不 经 心 的 输入 常常 也 可 以 得 到 正确 的 结果 。 (附录 B 中 的 
测试 可 以 帮助 你 评估 自己 的 估算 能 力 。) 如 果 你 估计 这 里 有 20% 的 误 
差 ， 那 里 有 50% 的 误差 ， 却 依然 发 现实 际 设计 结果 与 设计 要 求 相差 100 
倍 ， 那 么 额外 的 精度 就 没有 意义 了 。 在 对 20% 的 误差 幅度 给 予 太 多 信心 
ZAI, UTH Vic Vyssotsky 多 次 在 讲话 中 给 出 的 建议 。Vyssotsky 说 : 

你 们 中 的 大 多 数 人 ， 或 许 都 能 够 回忆 起 1940 年 在 一 场 风 又 中 断裂 
的 外 号 “Galloping Gertie” 的 塔 科 蕊 纳 罗斯 大 桥 的 样子 。 在 那 之 前 的 大 约 
80 年 里 ， 已 经 有 数 座 晤 索 桥 以 同样 的 方式 断 挤 了。 这 是 一 种 气动 上 升 
现象 。 如 果 想 对 受 力 进行 正确 的 工程 计算 (涉及 很 大 的 非 线 性 ) ， 需 
要 使 用 数学 方法 和 Kolmogorov [9] 的 思想 为 涡 旋 谱 建 模 。 直 到 20 世 纪 50 
年 代 前 后 ， 人 们 才 知 道 如 何 进行 正确 的 计算 。 那 么 ， 为 什么 布鲁克 林 
大 桥 没 有 如 Galloping Gertie—fFEMT RIE? 

这 是 因为 John Roebling 清楚 地 知道 目 己 对 哪些 问题 不 了 解 。 与 设 
计 布 鲁 克 林 大 桥 有 关 的 笔记 和 信函 现在 还 保存 着 ， 这 些 笔记 和 信函 是 
优秀 工程 师 了 解 目 己 知 识 局 限 性 的 很 好 的 例子 。 他 知道 巧 索 桥 有 气动 
上 升 现 象 ， 并 且 进 行 了 仔细 的 观察 ; 但 他 也 知道 目 己 不 清楚 如 何 为 之 
建 模 。 于 是 他 就 将 布鲁克 林 大 桥 车 行道 的 托 架 的 强度 按照 基于 已 知 的 
静态 和 动态 负 谷 的 正常 计算 结果 的 6 倍 设计 。 此 外 ， 他 还 对 延伸 到 车 行 
道 的 斜 拉 网 络 进行 了 特别 地 设计 ， 以 加 强 整 座 桥 的 强度 。 看 看 这 些 方 
法 ; 独一无二。 

当 Roebling 被 问 到 他 设计 的 大 桥 是 否 会 如 其 他 许多 大 桥 一 样 震 掉 
时 ， 他 说 : “不 会 ， 因 为 我 按照 所 需 强度 的 6 倍 设计 了 这 座 大 桥 ， 可 以 
防止 那 种 情况 的 发 生 。” 

Roebling 是 一 位 优秀 工程 师 ， 他 通过 使 用 很 大 的 安全 系数 来 补偿 上 自 
己 的 知识 局 限 ， 从 而 建造 了 一 座高 质量 的 大 桥 。 我 们 又 该 怎样 做 呢 ? 
我 建议 为 了 补偿 我 们 的 知识 局 限 ， 在 估算 实时 软件 系统 性 能 的 时 候 ， 
以 2、4 或 6 的 系数 来 降低 对 性 能 的 估计 ;在 做 出 可 菲 性 /可 用 性 保证 时 ， 


给 出 一 个 比 我 们 认为 能 达到 的 目标 差 10 倍 的 结果 ; 在 估算 规模 、 开 销 
和 时 间 进 度 时 ， 给 出 保守 2 倍 或 4 倍 的 结果 。 我 们 应 该 按照 John Roebling 
的 方式 进行 设计 ， 而 不 是 按照 其 同 代 人 的 方式 进行 设计 一 一 据 我 所 
知 ， 美 国 已 经 没有 Roebling 同 代 人 所 设计 的 巧 索 桥 了 ; 在 19 世 纪 70 年 代 
建造 的 各 种 类 型 的 大 桥 中 ， 有 四 分 之 一 在 建成 之 后 的 10 年 之 内 就 垮 掉 
了 o 

我 们 是 和 John Roebling 一 样 的 工程 师 吗 ? 我 很 怀疑 。 


7.4 Little 定 律 


大 多 数 粗略 估算 都 基于 显而易见 的 法 则 : 总 开销 等 于 每 个 单元 的 
开销 乘 以 单元 的 个 数 。 但 是 ， 有 时 我 们 需要 更 为 深入 的 洞察 。Bruce 
Weide 摘 述 了 一 个 令 人 惊奇 的 通用 法 则 。 

Denning 和 Buzen 介 绍 的 “运筹 分 析 ”( 参 见 Computing Surveys 第 10 卷 
第 3 期 ，1978 年 11 月 ， 第 225 页 一 第 261 页 ) 远 比 计算 机 系统 中 的 排队 网 
络 模 型 具有 普遍 意义 。 他 们 的 人 研究 很 出 色 ， 但 是 由 于 文章 主题 的 限 
H, INA RHH Little 定律 的 一 般 性 。 他 们 的 证 明 方 法 与 队列 或 计算 
机 系统 都 没有 关系 。 考 虑 一 个 带 有 输入 和 输出 的 任意 系统 ，Little 定 律 
指出 “系统 中 物体 的 平均 数量 等 于 物体 离开 系统 的 平均 速率 和 每 个 物体 
在 系统 中 停留 的 平均 时 间 的 乘积 。” (并 且 如 有 果 物 体 离 开 和 进入 系统 的 
总 体 出 入 法 是 平衡 的 ， 那 么 离开 速率 也 就 是 进入 速率 。) 

我 在 俄 玄 俄 州立 大 学 的 计算 机 体系 结构 课程 中 教授 这 一 性 能 分 析 
方法 。 但 是 我 试图 强调 该 结论 是 系统 论 中 的 一 个 通用 法 则 ， 并 且 可 以 
应 用 到 许多 其 他 类 型 的 系统 中 去 。 例 如 ， 假 设 你 正在 排队 等 待 进 入 一 
个 火爆 的 夜总会 ， 你 可 以 通过 估计 人 们 进入 的 速率 来 了 解 目 己 还 要 等 
待 多 长 时 间 。 依 据 Little 定律 ， 你 可 以 推论 : “这 个 地 方 可 以 容纳 约 60 
A, BERBERA AA ee 3 小 时 ， 因 此 我 们 进入 夜总会 的 速 


率 大 概 是 每 小 时 20 人 。 现 在 队伍 中 我 们 前 面 还 有 20 人 ， 这 也 就 意味 着 
我 们 需要 等 待 大 约 一 小 时 。 不 如 我 们 回 家 去 读 《 编 程 珠 现 》 吧 。” 我 想 
这 下 你 应 该 明白 了 。 

Peter Denning 简 明 扼要 地 将 这 条 法 则 表述 为 “队列 中 物体 的 平均 数 
量 为 进入 速率 与 平均 停留 时 间 的 乘积 ”。 他 将 这 条 法 则 应 用 于 他 的 酒 
a. “在 我 的 地 下 室 里 有 150 箱 酒 ， 我 每 年 喝 掉 25 箱 并 买 入 25 箱 ， 那 么 
每 箱 酒 保存 的 时 间 是 多 长 ?Little 定 律 告诉 我 ， 用 150 箱 除 以 25 箱 /年 ， 
导 到 | 答案 6 年 。” 

随后 他 转向 更 严肃 的 应 用 。“ 可 以 用 Little 定 律 和 流 平衡 的 原理 来 证 
明 多 用 户 系统 中 的 响应 时 间 公 式 。 假 定 平均 思考 时 间 为 z 的 n 个 用 户 同 
时 登录 到 响应 时 间 为 ?的 任意 系统 中 。 每 个 用 户 周期 都 由 思考 和 等 待 系 
统 响 应 两 个 阶段 组 成 ， 因 此 整个 元 系统 (包括 用 户 和 计算 机 系统 ) 中 
的 作业 总 数 固 定 为 n。 如 果 切 断 系 统 输出 到 用 户 的 路 径 ， 你 就 会 发 现 元 
RN EY fi fal An > SSM VS TB) zt Arik Ax) (用 每 个 时 间 单 
位 处 理 的 作业 数 来 度量 ) 。Little 定 律 告诉 我 们 n=xx(z+r)， 对 r 求 解 得 到 


r = n/x-z ° ” 


ù H OR 


可 


7.5 原理 


在 进行 粗略 佑 算 的 时 候 ， 要 切记 爱 因 斯 坦 的 名 言 : 

任何 事 都 应 尽量 催 单 ， 但 不 宜 过 于 简单 。 

我 们 知道 简单 计算 并 不 是 特别 简单 ， 其 中 包含 了 安全 系数 ， 以 补 
偿 售 算 参 数 时 的 错误 和 对 问题 的 了 解 不 足 。 


7.6 习题 
附录 B 的 测试 提供 了 一 些 和 额外 的 习题 。 


1. 贝 尔 实验 室 距 离 狂 野 的 密西西比 河 有 大 约 1 000 英 里 ， 而 我 们 距 
离 平 时 比较 温和 的 帕 塞 伊 克 河 只 有 几 公里 。 在 一 星期 的 倾盆 大 十 之 
后 ，1992 年 6 月 10 日 出 版 的 Star-Ledger 援 引 一 位 工程 师 的 话说 :“ 帕 塞 伊 
克 河 的 流速 为 每 小 时 200 英 里 ， 大 约 是 平时 的 5 倍 。” 对 此 你 有 何 评论 ? 

2. 在 什么 距离 下 骑 自 行车 的 送信 人 使 用 移动 存储 介质 传递 信息 的 速 
度 高 于 高 速 数 据 线 的 数据 传输 速度 ? 

3. 手 动 录 入 文字 来 填 满 一 张 软 盘 需 要 多 长 时 间 ? 

4. 假 设 整 个 世界 变 慢 为 原来 的 百 万 分 之 一 。 你 的 计算 机 执行 一 条 指 
令 需 要 多 长 时 间 ? 你 的 磁盘 旋转 一 周 需 要 多 长 时 间 ? 磁盘 臂 在 磁盘 上 
搜索 需要 多 长 时 间 ? 键入 自己 的 名 字 又 需要 多 长 时 间 ? 

5. 证 明 为 什么 “ 舍 九 法 ”可 以 正确 地 检验 加 法 。 如 何 进一步 检验 “72 
TAM"? 关于 这 个 法 则 你 能 证 明 些 什么 ? 

6. 联 合 国 估算 1998 年 的 世界 人 口 为 59 亿 ， 年 增长 率 为 1.339%。 如 果 
按 这 个 速率 下 去 ， 到 2050 年 世界 人 口 会 是 多 少 ? 

7. 附 录 C 描 述 了 对 系统 进行 时 间 和 空间 开销 建 模 的 程序 。 阅 读 这 些 
模型 ， 并 写 下 你 对 自己 系统 的 时 间 和 空间 开销 的 猜测 。 然 后 从 本 书 的 
网 站 上 下 载 这 些 程序 ， 在 你 的 系统 上 运行 ， 并 将 所 得 的 估算 值 和 你 的 
崩 测 进行 比较 。 

8. 请 使 用 速算 估计 一 下 本 书 勾勒 出 的 那些 设计 方案 的 运行 时 间 。 

a. 估 计 一 下 这 些 程序 和 设计 方案 的 时 间 和 空间 需求 。 

b. 大 0 表示 法 可 以 看 作 是 速算 的 形式 化 ， 该 表示 法 仅 考 虑 增长 率 而 
忽略 了 常 系数 。 

使 用 第 6 章 、 第 8 章 、 第 11 章 、 第 12 章 、 第 13 章 、 第 14 章 和 第 15 章 
中 算法 的 大 0 运行 时 间 估 算 这 些 算 法 实现 为 程序 后 的 运行 时 间 。 请 将 你 
的 估算 值 与 各 章 中 的 实验 结果 进行 比较 。 

9. 假 设 系统 处 理 一 个 事务 需要 执行 100 次 磁盘 访问 (尽管 有 些 系统 
需要 的 次 数 可 能 会 少 些 ,但 有 些 系统 则 需要 数 百 次 的 磁盘 访问 ) 。 该 


系统 在 每 个 磁 玛 中 每 小 时 可 以 处 理 多 少 事务 ? 
10. 请 估计 一 下 你 所 在 城市 的 死亡 率 ， 用 每 年 的 总 人 口 百 分 比 来 度 


11.[PJ.Denning] 请 给 出 Little 定 律 的 概要 证 明 。 
12. 一 篇 报纸 文章 称 ，25 美 分 硬币 的 “平均 寿命 是 30 年 ”。 如 何 检验 
该 论述 的 真 伪 呢 ? 


7.7 深入 阅读 


我 最 钟爱 的 数学 章 识 方面 的 书籍 殉 是 1954 年 出 版 的 Darrell Huff 的 
经 典 书籍 How To Lie With Statistics [10] ， 这 本 书 由 Norton 出 版 社 在 
1993 年 重新 发 行 。 现 在 看 来 ， 书 中 的 例子 有 些 老 了 (比如 其 中 说 某 些 
富 人 每 年 可 以 挣 到 惊人 的 2.5 万 美元 ! ) ， 但 是 书 中 的 原理 却 是 永远 正 
HAAJ e John Allen Paulosh KAS: 数学 无 知 者 眼中 的 迷 帆 世界 》 论 壕 
了 1990 年 解决 类 似 问 题 时 所 采用 的 方法 (Farrar,Stratus and Giroux 出 版 
社 出 版 ) 。 

物理 学 家 很 了 解 这 个 话题 。 本 章 发 表 在 《ACM 通 讯 》 上 以 后 ，Jan 
Wolitzky 写 道 : 

我 经 党 昕 到 有 人 根据 物理 学 家 费 米 的 名 字 ， 将 “粗略 估算 ” 称 为 “ 费 
米 近 似 ”。 故 事 的 梗概 如 下 : 费 米 、 奥 本 海 默 以 及 其 他 一 些 曼哈顿 项 目 
的 骨干 人 员 隐 向 在 一 堵 低 矮 的 防 冲 击 波 墙 的 后 面 ， 等 待 数 千 码 之 外 的 
第 一 个 核 装 置 的 爆炸 。 费 米 将 几 张 纸 撕 成 小 厅 片 ， 当 看 到 火光 一 内 
时 ， 即 把 雄 厂 撤 同 空中 。 等 冲击 波 过 去 之 后 ， 他 用 脚步 测量 出 纸 片 飞 
过 的 距离 ， 然 后 通过 快速 的 “粗略 估算 ”得 出 了 炸弹 的 爆炸 当量 。 很 久 
之 后 这 个 数 得 到 了 昂 贯 监视 设备 的 确认 。 

搜索 字符 串 “back of the envelope” 和 “Fermi problems” 可 以 找到 大 量 
的 相关 网 页 。 


7.8 日 常生 活 中 的 速算 (边栏 ) 


本 章 在 《ACM 通讯 》 上 发 表 以 后 ， 引 来 了 许多 有 趣 的 信件 。 有 位 
读者 提 到 ， 他 曾 昕 一 则 广告 说 ， 某 位 销售 员 芍 驶 新 车 在 一 年 之 内 行驶 
了 100 000 英 里 ， 于 是 他 要 他 的 儿子 验证 一 下 这 个 说 法 是 否 成 立 。 这 里 
有 一 个 快速 的 答案 : 每 年 有 2 000 个 工作 小 时 〈50 周 x40 小 时 / 周 ) ， 销 
售 员 可 能 平均 每 小 时 行驶 50 英 里 ; A AISA TRS Te), 
乘积 刚好 是 广告 中 所 说 的 数 。 因 此 广告 的 说 法 超出 了 可 信 范 围 。 

日 常生 活 为 我 们 提供 了 许多 训练 速算 技能 的 机 会 。 例 如 ， 去 年 你 
在 餐馆 就 餐 总 共 花 了 多 少 钱 ? 一 位 纽约 人 经 过 快速 计算 后 说 他 和 他 的 
妻子 每 个 月 花 在 出 租车 上 的 钱 要 比 花 在 房租 上 的 钱 还 要 多 ， 我 听 到 后 
非常 吃惊 。 加 利 福 尼 亚 的 读者 (他 们 可 能 不 知道 什么 是 出 租车 ) 可 以 
计算 一 下 ， 如 果 用 橡胶 软 管 向 游泳 池 注 水 ， 需 要 多 长 时 间 才 能 将 其 注 
满 ? 

有 几 位 读者 说 他 们 在 孩提 时 代 就 已 经 学 习 过 速算 了 。Roger 
Pinkham 这 样 写 道 : 

我 是 一 位 教师 ， 多 年 以 来 一 直 在 向 每 一 位 听课 的 人 讲授 粗略 人 
算 。 可 是 我 却 不 可 思议 地 失败 了 ， 看 来 只 有 怀疑 主义 者 才能 学 好 粗略 
估算 。 

是 父亲 教会 了 我 这 种 速算 的 方法 。 我 来 自 缅 因 州 海岸 ， 小 时 候 有 
一 次 无 意 中 听 到 了 我 父亲 和 他 的 朋友 Homer Potter 之 间 的 谈话 。Homer 
坚持 说 两 位 来 自 康涅狄格 州 的 女士 一 天 就 捕 到 了 200 磅 (1 磅 =0.454 公 
Fr) 龙虾 。 我 父亲 说 ,“ 让 我 们 来 算 算 。 如 果 你 15 分 钟 捕 一 盆 龙 是 ， 
盆 约 3 磅 ， 那 么 每 小 时 可 以 捕 到 12 磅 ， 或 者 说 每 天 能 捕 到 约 100 磅 。 我 
不 相信 这 是 真 的 !” 

“ER”, Homer 发 址 说 ,“ 你 什么 都 不 相信 !”。 但 父亲 就 是 不 信 
他 的 话 。 两 个 星期 后 ，Homer 说 , “你 知道 吗 ，Fred? 那 两 位 女士 一 天 


只 捕 到 了 20 磅 龙虾 。” 

父亲 宽 宏大 量 地 咕 咏 到 : “这 样 的 话 我 就 相信 了 。” 

其 他 几 位 读 着 从 父母 和 孩子 的 观点 ， 分 别 讨 论 了 如 何 将 这 种 怀疑 
的 态度 传授 给 孩子 。 适 合 小 孩 的 问题 通常 是 “步行 到 华盛顿 特区 需要 多 
长 时 间 ?”`“ 今 年 我 们 用 友子 清理 了 多 少 片 树叶 ?等 形式 。 引 导 得 当 的 
话 ， 这 类 问题 似乎 可 以 激发 起 孩子 们 终 其 一 生 的 好 奇 心 ， 代 价 是 时 各 
会 激怒 可 怜 的 孩子 们 。 


第 2 对 描述 了 算法 设计 对 程序 员 的 日 常 影响 .算法 上 的 灵机 一 动 可 
以 使 程序 更 加 简单 。 本 章 我 们 将 发 现 算法 设计 的 一 个 不 那么 常见 但 更 
富 于 戏剧 性 的 贡献 : 复杂 深奥 的 算法 有 时 可 以 极 大 地 提高 程序 性 能 。 

本 章 就 一 个 小 问题 研究 了 四 种 不 同 的 算法 ， 重 点 强调 这 些 算法 的 
设计 技术 。 其 中 的 一 些 算法 稍微 复 洒 一 些 ， 但 合情合理 。 将 要 研究 的 
第 一 个 程序 要 人 花 15 天 时 间 才 能 解决 一 个 规模 为 100 000 的 问题 ， 而 最 后 
一 个 程序 在 5 毫秒 时 间 内 头 解决 了 同样 的 问题 。 


8.1 问题 及 简单 算法 


问题 来 目 一 维 的 模式 识别 ， 后 面 会 讲 这 个 问题 的 来 历 。 问 题 的 输 
入 征 具 有 n 个 译 点 数 的 癌 量 x， 输 出 是 输入 同 量 的 任何 连续 子 同 量 中 的 
最 大 和 。 例 如 ， 如 采 输 入 回 量 包含 下 面 10 个 元 系 : 


ED Sed Ede dee 


2 6 


那么 该 程序 的 输出 为 x[2..6] 的 总 和 ， 即 187。 当 所 有 数 都 是 正 数 
时 ， 问 题 很 容易 解决 ， 此 时 最 大 子 回 量 束 是 整个 输入 同 量 。 当 输入 回 
BPE A Ma iM RIK ST: 是 否 应 该 包含 菜 个 负数 并 期 望 券 边 的 正 
ARI EVE? 为 了 使 问题 的 定义 更 加 完整 ， 我 们 认为 当 所 有 的 输入 
都 是 负数 时 ， 总 和 最 大 的 子 回 量 是 空间 量 ， 总 和 为 0。 

完成 该 任务 的 浅显 程序 对 所 有 满足 0<isj<n 的 人 ) 整 数 对 进行 迭代 。 
对 每 个 整数 对 ， 程 序 都 要 计算 x[i..j] 的 总 和 ， 并 检验 该 总 和 是 否 大 于 运 
今 为 止 的 最 大 总 和 。 算 法 1 的 伪 代 码 如 下 所 示 : 

maxsofar = 0 

for i = [0,n) 


for j = [i,n) 


sum = 0 
for k = [i,j] 
sum += x[k] 
/* sum is sum of x[i..j] */ 
maxsofar = max(maxsofar,sum) 
这 段 代码 简洁 、 直 观 并 且 易 于 理解 。 不 笠 的 是 ， 程 序 的 运行 速度 
也 很 慢 。 例 如 在 我 的 机 器 上 ， 如 果 n=10 000， 该 程序 的 运行 时 间 约 为 22 
分 钟 ， 如 果 n 为 100 000， 则 要 运行 15 天 的 时 间 。 我 们 将 在 8.5 节 详细 讨 
论 有 关 计 时 的 问题 。 
这 些 时 间 很 有 趣 ， 我 们 现在 对 于 该 算法 效率 的 感受 ， 跟 6.1 节 用 大 O 
表示 法 描述 时 所 获得 的 感受 不 一 样 。 最 外 层 的 循环 刚好 执行 na 次 ， 而 中 
间 循 环 在 外 循环 的 每 次 执行 中 至 多 执行 na 次。 将 这 两 个 系数 n 相 乘 可 知 


中 间 循 环 中 的 代码 将 执行 O(n* ) 次 。 中 间 循 环 里 面 的 内 循环 执行 的 次 数 
不 会 超过 n， 因 此 内 循环 的 运行 时 间 是 O(n)。 将 每 次 内 循环 的 开销 跟 它 
的 执行 次 数 相 乘 ， 可 以 得 知 整 个 程序 的 运行 时 间 与 n 的 立方 成 正比 。 
此 我 们 将 该 算法 称 为 立方 算法 。 

这 个 例子 说 明了 大 0 分 析 方 法 及 其 众多 的 优 缺 点 。 其 主要 的 缺点 驶 
是 我 们 实际 上 仍然 不 知道 对 于 任意 特定 的 输入 ， 程 序 的 运行 时 间 是 多 
少 ， 我 们 只 知道 步 数 的 数量 级 是 OO3 )。 该 缺点 可 以 由 大 0 分 析 方 法 的 
男 外 两 个 优点 来 弥补 ， 大 O 分 析 通 常 比较 容易 实现 (如 上 面 所 示 ) ; 而 
旦 其 渐进 运行 时 间 用 于 粗略 售 算 通 常 已 经 足够 了 ， 可 以 以 此 为 依据 判 
断 程序 是 否 满足 具体 应 用 的 要 求 。 

接 下 来 的 几 节 使 用 渐 近 运行 时 间作 为 程序 效率 的 唯一 度量 。 如 果 
你 不 喜欢 这 些 内 容 ， 请 直接 跳 到 8.5 节 。 从 8.5 闻 也 可 以 看 出 ， 大 0 分析 
对 于 该 问题 是 非 第 有 用 的 。 在 继续 阅读 之 前 ， 请 化 几 分 钟 时 间 笑 试 闭 
TRB —Th BRAVE 


8.2 两 个 平方 算法 


大 多 数 程序 员 对 算法 1 都 有 类 似 的 反应 : “有 一 个 明显 的 方法 可 以 
使 其 运行 起 来 快 得 多 。” 实 际 上 有 两 个 明显 的 方法 ， 对 给 定 程序 员 来 说 
如 条 其 中 一 个 方法 是 显而易见 的 ， 那 么 兄 一 个 方法 则 通 利 不 那么 明 
显 。 这 两 个 算法 都 是 平方 时 间 的 (对 于 输入 规模 n 来 说 ， 需 要 执行 O(n 
) 步 ) ， 都 是 通过 在 固定 的 步 数 而 不 是 算法 1 的 j-it1 步 内 完成 对 x[i.j] 的 
求 和 来 达到 平方 时 间 的 。 但 古 这 两 个 平方 算法 在 固定 时 间 内 计算 总 和 
时 却 使 用 了 极为 不 同 的 方法 。 

第 一 个 平方 算法 注意 到 ，x[i.j] 的 总 和 与 前 面 已 计算 出 的 总 和 

(x[i.j-1] 的 总 和 ) 密切 相关 。 利 用 这 一 关系 即 可 得 到 算法 2。 


maxsofar = 0 


for i = [0,n) 
sum = 0 
for j = [i,n) 
sum += x[j] 
/* sum is sum of x[i..j] */ 
maxsofar = max(maxsofar,sum) 
第 一 个 循环 内 的 语句 需要 执行 n 次 ， 第 二 个 循环 内 的 语句 在 每 次 执 
行 外 循环 时 至 多 执行 n 次 ， 所 以 总 的 运行 时 间 是 0 ) 。 
男 一 个 平方 算法 是 通过 访问 在 外 循环 执行 之 前 就 已 构建 的 数据 结 
构 的 方式 在 内 循环 中 计算 总 和 。cumarr 中 的 第 i 个 元 素 包 含 x[0.. 训 中 各 
PRY AINA, Pr x[i..j] 中 各 个 数 的 总 和 可 以 通过 计算 cumarr[j]- 
cumarr[i-1] 得 到 。 从 而 我 们 可 以 得 到 咎 法 2b 的 代码 ， 如 下 所 示 : 
cumarr[-1] = 0 
for i = [0,n) 


cumarr[i] = cumarr[i-1] + x[i] 


maxsofar = 0 
for i = [0,n) 
for j = [i,n) 
sum = cumarr[j] - cumarr[i-1] 
/* sum is sum of x[i..j] */ 
maxsofar = max(maxsofar,sum) 
(习题 5 解决 了 访问 cumar[-1] 的 问题 。) 这 段 代 码 的 运行 时 间 为 
O(n* )， 其 分 析 过 程 与 算法 2 完全 一 样 。 
迄今 为 止 ， 我 们 所 看 到 的 算法 考虑 了 所 有 可 能 的 子 回 量 ， 并 计算 
了 每 个 子 向 量 中 所 有 数 的 总 和 。 因 为 存在 O(n ) 个 子 同 量 ， 所 以 这 些 算 


法 至 少 需 要 平方 时 间 。 你 能 想 办 法 避免 检测 所 有 可 能 的 子 向 量 ， 从 而 
获得 运行 时 间 更 短 的 算法 吗 ? 


8.3 分 治 算 法 


我 们 的 第 一 个 次 平方 (subquadratic) 算法 很 复杂 ， 如 果 你 不 想 陷 
入 其 党 琐 的 细节 问题 中 ， 可 以 直接 跳 到 下 一 五 ， 那 样 并 不 会 有 多 少 损 
失 。 该 算法 基于 如 下 的 分 治 原 理 ; 

要 解决 规模 为 n 的 问题 ， 可 递归 地 解决 两 个 规模 近似 为 M2 的 子 问 
题 ， 然 后 对 它们 的 答案 进行 合并 以 得 到 整个 问题 的 答案 。 

在 本 例 中 ， 初 始 问题 要 处 理 大 小 为 n 的 癌 量 。 所 以 将 它 划 分 为 两 个 
子 问题 的 最 自然 的 方法 就 是 创建 两 个 大 小 近似 相等 的 子 向 量 ， 分 别称 
为 aH 和 b ° 


然后 递归 地 找 出 a、b 中 元 素 总 和 最 大 的 子 癌 量 ， 分 别称 为 ms 和 mn 


现在 我 们 很 容易 误 以 为 目 己 已 经 找到 问题 的 解 了 ， 因 为 我 们 可 能 
会 觉得 在 整个 癌 量 中 总 和 最 大 的 子 同 量 必 定 在 ma 或 mb 中 。 这 不 完全 正 
硝 。 事 实 上， 最 大 子 癌 量 要 么 整个 在 a 中 ， 要 么 整个 在 b 中 ， 要 么 跨越 a 
和 Pb 之 间 的 边界 。 我 们 将 跨越 边界 的 最 大 子 同 量 称 为 m。。 


我 们 的 分 治 算法 将 递归 地 计算 ms 和 mb ， 并 通过 其 他 某 种 方法 计算 
me ， 然 后 运 回 3 个 总 和 中 的 最 大 者 。 

有 了 以 上 的 搬 述 就 差 不 多 可 以 开始 编写 程序 代码 了 ， 还 需要 解决 
的 问题 是 如 何 处 理 小 向 量 以 及 如 何 计算 m。。 前 者 比较 简单 :只 有 一 个 
元 素 的 向 量 的 最 大 子 向 量 的 和 就 是 该 向 量 中 的 数 ( 若 该 数 为 负数 ， 则 
最 大 子 向 量 的 和 为 0) “。 零 元 素 向 量 的 最 大 子 向 量 的 和 定义 为 0 为 了 
计算 me ， 我 们 通过 观察 发 现 ，me 在 a 中 的 部 分 是 a 中 包含 右边 界 的 最 大 
Fes, fim, 在 b 中 的 部 分 是 b 中 包含 左边 界 的 最 大 子 向 量 。 将 这 些 因 
Bone ERE PSSST: 


float maxsum3(l,u) 


if (l > u) /* zero elements */ 
return 0 
if (l == u) /* one element */ 
return max(0,x[l]) 
m=(l+u)/2 
/* find max crossing to left */ 
Imax = sum = 0 
for (i = m; i >= l; i--) 
sum += x[i] 
Imax = max(Imax,sum) 
/* find max crossing to right */ 
rmax = sum = 0 
for i = (m,u] 
sum += x[i] 
rmax = max(rmax,sum) 


return max(Imax+rmax,maxsum3(l,m),maxsum3(m+1,u)) 


算法 3 的 最 初 调用 如 下 : 

answer = maxsum3(0,n-1) 

该 程序 代码 比较 复杂 ， 容 易 出 错 ， 但 是 它 在 O(n log n) 时 间 内 解决 
了 我 们 的 问题 。 有 多 种 方式 可 以 证 明 其 运行 时 间 。 一 种 非 正式 的 论证 
是 ， 该 算法 在 每 层 递归 中 都 执行 O(n) 次 操作 ， 而 总 计 有 QO(Qogn) 层 递 
归 。 更 精确 的 论证 可 以 通过 递 推 关 系 完 成 。 若 用 T(n) 表 示 解 决 规模 为 n 
的 问题 所 需 的 时 间 ， 那 么 TCD)=O(D) 且 

T(n)= 2T(n/2)+O(n) 
习题 15 指 出 该 递 推 关系 的 解 为 Tn) = O (n log n) ° 


8.4 扫描 算法 


我 们 现在 采用 操作 数组 的 最 简单 的 算法 : 从 数组 最 左 端 OCA 
x[0]) 开始 扫描 ， 一 直到 最 右 端 (元素 x[n-1]) 为 止 ， 并 记 下 所 遇 到 的 
总 和 最 大 的 子 回 量 。 最 大 总 和 的 初始 值 设 为 0。 假 设 我 们 已 解决 了 
x[0..i-1] 的 问题 ， 那 么 如 何 将 其 扩展 为 包含 x 自 的 问题 呢 ? 我 们 使 用 类 似 
于 分 治 算法 的 原理 :前 i 个 元 素 中 ， 最 大 总 和 子 数组 要 么 在 前 i-1 个 元 际 
中 (我 们 将 其 存储 在 maxsofar 中 ) ， 要 么 其 结束 位 置 为 i (我 们 将 其 存 
储 在 maxendinghere 中 ) ° 
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l 
使 用 类 似 算法 3 那样 的 代码 从 头 开始 计算 maxendinghere 将 得 到 又 
个 平方 算法 。 我 们 可 以 使 用 导出 算法 2 的 方法 来 避免 得 到 平方 算法 : 
不 从 头 开 始 计 算 结 束 位 置 为 的 最 大 子 向 量 ， 而 是 利用 结束 位 置 为 i-1 的 
最 大 子 回 量 进行 计算 。 这 样 瓯 得 到 了 算法 4。 


maxsofar = 0 


maxendinghere = 0 
for i = [0,n) 
/* invariant: maxendinghere and maxsofar 
are accurate for x[0..i-1] */ 
maxendinghere = max(maxendinghere + x[i],0) 
maxsofar = max(maxsofar,maxendinghere) 
理解 这 个 程序 的 关键 就 在 于 变量 maxendinghere。 在 循环 中 的 第 一 
个 赋值 语句 之 前 ，maxendinghere 是 结束 位 置 为 i-1 的 最 大 子 癌 量 的 和 ; 
赋值 语句 将 其 修改 为 结束 位 置 为 i 的 最 大 子 同 量 的 和 。 奉 加 上 x 中 之 后 
结果 依然 为 正 值 ， 则 该 赋值 语句 使 naxendinghere 增 大 x[i; 知 加 上 xj] 
之 后 结果 为 负 值 ， 该 赋值 语句 就 将 maxendinghere 重 新 设 为 0 (因为 结 
位 置 为 i 的 最 大 子 向 量 现在 为 空间 量 ) 。 该 代码 比较 复杂 ， 但 十 分 简 
短 ， 运 行 起 来 也 很 快 : 其 运行 时 间 为 O(n)， 因 此 我 们 称 之 为 线性 算 
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8.5 实际 运行 时 间 


到 目前 为 止 ， 我 们 一 直 是 简单 地 使 用 大 0 分 析 法 来 说 明 问 题 ， 现 在 
该 研究 程序 的 运行 时 间 了 。 我 在 主 频 400 MHz 的 Pentiumll 计 算 机 上 ， 用 
C 语 言 实现 了 前 面 的 4 个 主要 算法 ， 并 对 其 计时 ， 然 后 根据 观测 到 的 运 
行 时 间 进 行 外 推 ， 从 而 得 到 下 面 的 表格 。 (算法 2b 的 运行 时 间 一 般 在 
算法 2 的 10% 之 内 ， 因 此 没有 包含 在 表 内 。) 


0.05 毫秒 
0.5 毫秒 


解决 右 侧 所 列 
规模 的 问题 所 5 EF) 
需 的 时 间 48 TE 


0.48 秒 


单位 时 间 内 能 
够 解决 的 问题 
的 规模 


2.4X10° 
5.0 101° 
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可 以 极 大 地 减少 运行 时 间 ， 中 则 的 几 行 数据 突出 强调 了 这 一 点 。 节 后 
两 行 说 明了 问题 规模 的 增加 与 运行 时 间 的 增加 之 间 的 天 系 。 


男 一 个 重点 是 ， 当 我 们 将 立方 算法 、 平 方 算法 以 及 线性 算法 进行 
相互 比较 上 时， 程序 运行 时 间 中 的 常 系数 并 不 重要 。 (24 PAR 
OG0) 算 法 的 讨论 表明 ， 在 增长 速度 快 于 多 项 式 的 函数 中 ， 第 系数 的 影 
响 更 小 。) 为 了 强调 这 一 点 ， 我 进行 了 一 次 实验 ， 使 两 个 算法 的 常 系 
数 的 差 尽 可 能 地 大 。 为 得 到 一 个 巨大 的 常 系数 ， 我 在 Radio Shack TRS- 
80 Model 川 〈1980 年 的 个 人 电脑 ， 使 用 Z-80 处 理 器 ， 主 频 为 2.03 MHz) 
上 实现 了 算法 4。 为 了 进一步 减 慢 那 台 可 怜 的 老 古 董 ， 我 使 用 了 解释 型 
的 BASIC 人 代码， 这 种 BASIC 代 码 比 编译 型 代码 慢 ] 一 2 个 数量 级 。 为 了 得 
到 一 个 很 小 的 常 系数 ， 我 在 主 频 为 533 MHz 的 Alpha 21164 上 实现 了 算 
法 1。 我 得 到 了 所 期 望 的 差异 : 立方 算法 的 运行 时 间 度 量 结果 为 0.58n3 
纳 秒 ， 而 线性 算法 的 运行 时 间 为 19.5n 富 秒 ， 或 者 说 19 500 000n 纳 秒 

(也 就 是 说 ， 每 秒 大 约 处 理 50 个 元 素 ) 。 下 表 给 出 了 这 两 个 表达 式 在 
各 种 问题 规模 下 所 对 应 的 运行 时 间 。 


Alpha 21164A TRS-80 BASIC 
C 语言 立方 算法 | 语言 线性 算法 


10 0.6 微 秒 200 毫秒 
100 0.6 毫秒 2.0 秒 
1 000 0.6 $) 20 秒 
beter 10 分 钟 3.2 分 名 
ee 7 天 32 分 钟 
000 19 年 5.4 小 时 


3 300 万 售 的 常 系 数 差 异 使 得 立方 算法 在 刚 开始 快 一 些 ， 但 是 这 并 
不 能 阻止 线性 算法 的 后 来 大 上 。 两 种 算法 的 平衡 点 在 5 800 附 近 ， 在 这 
个 位 置 上 ， 每 种 算法 的 运行 时 间 痢 还 不 到 2 分 钟 。 


世纪 
月 

小 时 

秒 运行 时 间 ( 常 用 单位 ) 
毫秒 

微 秒 

纳 秒 


运行 时 间 ( 纳 秒 ) 


10° 10' 10? 10° 10* 10° 10° 
问题 规模 (n) 


这 个 问题 的 历史 清楚 地 展示 了 算法 设计 技术 。 该 问题 出 现在 布朗 
大 学 的 Ulf Grenander 所 面 对 的 一 个 模式 匹配 问题 中 ， 问 题 的 最 初 形 式 
是 习题 13 中 所 描述 的 二 维 形 式 。 在 该 版 本 的 问题 中 ， 最 大 总 和 子 数组 
是 数字 图 像 中 某 种 特定 模式 的 最 大 似 然 估 计量 。 因 为 二 维 问题 的 求解 
需要 太 多 的 时 间 ， 所 以 Grenander 将 它 简 化 为 一 维 问题 ， 以 深入 了 解 其 
结构 。 

Grenander 发 现 立 方 运行 时 间 的 算法 1 出 奇 地 慢 ， 于 是 开发 出 了 算法 
2。1977 年 的 时 候 ， 他 将 该 问题 叙述 给 Michael Shamos 听 ， 结 果 Shamos 
伦 一 个 通宵 瓯 设计 出 了 算法 3。 过 了 没 多 久 ，Shamos 回 我 介绍 这 个 问 
题 ， 我 们 一 致 认 为 这 很 可 能 是 最 好 的 算法 了 ， 因 为 研究 人 员 刚 刚 证 明 
了 几 个 类 似 的 问题 需要 正比 于 nlog n 的 时 间 。 几 天 之 后 ， Shamos 在 卡 
内 基 一 梅 隆 大 学 研讨 会 上 介绍 了 该 问题 及 其 历史 ， 结 果 与 会 的 统计 学 
家 Jay Kadane 在 一 分 钟 之 内 残 勾勒 出 了 算法 4。 好 在 我 们 知道 不 会 有 更 
快 的 算法 了 : 任何 正确 的 算法 都 必须 至 少 花 费 O(n) 的 时 间 (见习 题 
6) ° 

虽然 一 维 问 题 得 到 了 完满 的 解决 ， 但 是 Grenander 最 初 的 二 维 问题 
却 迟 迟 没有 答案 。 (在 本 书 第 2 版 行将 出 版 的 时 候 ， 该 问题 已 经 提出 20 
年 了 。) 由 于 所 有 已 知 算法 的 计算 开销 过 大 ，Grenander 不 得 不 放弃 那 
种 解决 其 模式 匹配 问题 的 方法 。 如 采 读 者 朋友 觉得 一 维 问题 的 线性 时 
间 算 法 是 “显而易见 ”的 ， 那 么 请 帮助 Grenander 找 一 找 习 题 13 的 “ 显 而 易 
见 ” 的 算法 。 

本 章 故 事 中 的 这 些 算法 给 出 了 几 个 重要 的 算法 设计 技术 。 

保存 状态 ， 避 侈 重复 计算 。 算 法 2 和 算法 4 使 用 了 人 简单 的 动态 规划 
形式 。 通 过 使 用 一 些 空 间 来 保存 中 间 计 算 结 有 末 ， 我 们 避免 了 人 花 时 间 对 
其 重复 计算 。 

将 信息 预 处 理 至 数据 结构 中 。 算 法 2b 中 的 cumarr 结 构 允 许 对 子 回 量 
中 的 总 和 进行 快速 计算 。 


分 治 算法 。 算 法 3 使 用 了 简单 的 分 治 算法 形式 ， 有关 算法 设计 的 
教科 书 介绍 了 更 高 级 的 分 治 算法 形式 。 

扫 拉 算法 。 与 数组 相关 的 问题 经 党 可 以 通过 思考 “如 何 将 x[0..i-1] 
的 解 扩 展 为 x[0.. 的 解 ?” 来 解决 。 算 法 4 通过 同时 存储 已 有 的 答案 和 一 些 
辅助 数据 来 计算 新 答案 。 

过 加 数组 。 算 法 2b 使 用 了 一 个 宗 加 表 ， 表 中 第 i 个 元 素 的 值 为 x 中 前 
i 个 值 的 总 和 ;这 一 类 表 第 用 于 处 理 有 玫 围 限制 的 问题 。 例 如 ， 业 务 分 
析 师 要 确定 3 月 份 到 10 月 份 的 销售 额 ， 可 以 从 10 月 份 的 本 年 运 今 销 售 籁 
中 减 去 2 月 份 的 本 年 运 今 销 售 额 。 

下 和 界 。 只 有 在 确定 了 目 己 的 算法 是 所 有 可 能 的 算法 中 最 佳 的 算法 
以 后 ， 算 法 设计 师 才 可 能 踏 踏实 实地 睡 个 好 沉 。 为 此 ， 他 们 必须 证 明 
某 个 相 匹配 的 下 界 。 

对 本 问题 线性 下 界 的 讨论 见习 题 6， 更 复杂 的 下 界 证 明 可 能 会 十 分 
困难 。 


8.7 习题 


1. 算 法 3 和 算法 4 使 用 的 代码 比较 复杂 ， 也 很 容易 出 错 。 请 使 用 第 4 
章 中 的 程序 验证 技术 证 明代 码 的 正确 性 ， 指 定 循环 不 变 式 时 请 务必 小 
ips 

2A EMRAH EAS PSST AY, E85 AHR 
的 表 。 

3. 我 们 对 四 种 算法 的 分 析 仅 限于 大 0 层面 。 请 尽 可 能 精确 地 分 析 每 
种 算法 调用 max 函 数 的 次 数 。 本 题 对 你 分 析 这 些 程序 的 运行 时 间 有 何 局 
示 ? 每 种 算法 需要 多 少 空间 ? 

4. 如 采 和 输入 数组 中 的 各 个 元 素 都 是 从 区 间 [-11 中 均匀 选 出 的 随机 
实数 ， 那 么 最 大 子 疝 量 的 期 望 值 是 多 少 ? 


5. 为 简单 起 见 ， 我 们 允许 算法 2b 访 问 cumarr[-1]。 如何 使 用 C 语 言 处 
理 该 问题 ? 

6. 证 明 任 何 计算 最 大 子 回 量 的 正确 算法 都 必须 检测 所 有 n 个 输入 。 

(有 些 问题 的 算法 可 以 正确 地 忽略 某 些 输入 ; 请 思考 答案 2.2 中 Saxe 的 
算法 ， 以 及 Boyer 和 Moore 的 子 串 搜索 算法 。) 

7. 当 我 第 一 次 实现 这 些 算法 时 ， 我 总 是 使 用 脚手架 将 各 种 不 同 算法 
所 产生 的 管 案 和 算法 4 所 产生 的 答案 进 行 比较 。 当 看 到 脚手架 报告 算法 
2b 和 算法 3 中 的 错误 时 ， 我 很 烦躁 。 但 是 当 我 仔细 研究 这 些 数值 答案 
时 ， 我 发 现 它 们 尽管 不 一 样 ， 却 非常 接近 。 这 意味 着 什么 呢 ? 

8. 修 改 算法 3 (分 治 算法 ) ， 使 其 在 最 坏 情况 下 具有 线性 运行 时 
间 。 

9. 我 们 将 负数 数组 的 最 大 子 回 量 的 和 定义 为 0， 即 空 回 量 的 总 和 。 
假设 我 们 重新 定义 ， 将 最 大 子 向 量 的 和 定义 为 最 大 元 素 的 值 ， 那 么 ， 
应 该 如 何 修改 各 个 程序 呢 ? 

10. 假 设 我 们 想 要 查找 的 是 总 和 最 接近 0 的 子 回 量 ， 而 不 是 具有 最 大 
总 和 的 子 癌 量 。 你 能 设计 出 的 最 有 效 的 算法 是 什么 ? 可 以 应 用 哪些 算 
法 设计 技术 ? 如 果 我 们 希望 查找 总 和 最 接近 某 一 给 定 实数 的 子 癌 量 ， 
结果 叉 将 怎样 ? 

11. 收 费 公 路 由 n 个 收费 站 之 间 的 n-1 段 公路 组 成 ， 每 一 段 公 路 都 有 
相关 的 使 用 费 。 如 采 在 OO 时间 内 驶 过 两 个 收费 站 ， 并 且 仅 使 用 一 个 
费用 数组 ， 或 在 固定 时 间 内 驶 过 两 个 收费 站 ， 并 且 使 用 一 个 具有 om) 
个 表 项 的 表 ， 那 么 给 出 两 站 之 间 的 行驶 费 很 容易 。 请 描述 一 个 数据 结 
构 ， 该 结构 仅 需 要 O(n) 的 空间 ， 却 可 以 在 固定 的 时 间 内 完成 任意 路 段 
的 费用 计算 。 

12. 将 数组 x[0..n-1] 初 始 化 为 全 0 后 ， 执 行 下 面 n 个 运算 : 

for i = [],u] 


xli] += v 


其 中 1、u 和 v 为 每 次 运算 的 参数 (1 和 u 为 满足 0<1<u<n 的 整数 ，v 

完成 这 n 次 运算 之 后 ，x[0..n-1] 中 的 各 个 值 将 按 顺序 排列 。 上 面 刚 
刚 描述 的 方法 需要 O(m? ) 的 运行 时 间 。 你 能 给 出 一 个 更 快 的 算法 吗 ? 

13. 在 最 大 子 数 组 问题 中 ， 给 定 nxn 的 实数 数组 ， 我 们 需要 求 出 矩 
形 子 数组 的 最 大 总 和 。 该 问题 的 复杂 度 如 何 ? 

14. 给 定 整 数 m、n 和 实数 向 量 x[n]， 请 找 出 使 总 和 x[i]+...+x[it+m] 最 
接近 0 的 整数 i (0<i<n-m) 

15. 当 T(1)=0 且 n 为 2 的 害 时 ， 递 推 公式 T(n)=2 T(m/2)+cn 的 解 是 什 
么 ?请 用 数学 归纳 法 证 明 你 的 结果 。 如 果 T(D)=c， 结 果 又 怎样 ? 


8.8 深入 阅读 


只 有 经 过 广泛 的 研究 和 实践 ， 你 才能 熟练 地 运用 算法 设计 技术 ; 
大 多 数 程序 员 仅 仅 是 从 有 关 算 法 的 课程 或 教科 书 中 获得 这 些 知识 。 
Aho ` Hopcroft # Ullman 的 Data Structures and Algorithms [11] 
(Addison-Wesley 出 版 社 1983 年 出 版 ) 是 一 本 很 优秀 的 大 学 教材 。 书 中 
的 第 10 章 是 关于 “算法 设计 技术 ”的 ， 与 本 章 内 容 尤 为 相关 。 
Cormen、Leiserson 和 Rivest 的 Introduction to Algorithms [12] 一 书 由 
MIT 出 版 社 于 1990 年 出 版 。 这 本 上 千 页 的 巨著 对 这 个 领域 进行 了 全 方 
位 的 论述 。 第 1、1 和 册 部 分 渔 盖 了 基础 知识 、 排 序 以 及 搜索 方面 的 内 
容 。 第 IV 部 分 是 关于 “高 级 设计 和 分 析 技 术 ” 的 ， 与 本 章 主题 的 关系 特别 
密切 。 第 V、VI 和 VIl 部 分 讨论 了 高 级 数据 结构 、 图 算法 和 其 他 精 选 的 主 


这 些 书 与 其 他 7 本 书 一 起 收藏 在 一 张 名 为 “Dr.Dobb’s Essential Books 
on Algori thms and Data Structures” 的 CD-ROM 中 。 该 CD 在 1999 年 由 
Miller Freeman 有 限 公 司 发 行 。 这 对 所 有 对 算法 和 数据 结构 感 兴趣 的 程 


序 员 来 说 都 是 一 份 无 价 的 参考 。 在 本 书 即 将 出 版 的 时 候 ， 已 经 可 以 从 
Dr.Dobb’s 的 网 站 www.ddj.com 上 订购 完整 的 一 套 电 子 版 了 ， 其 价格 仅 相 
当 于 一 本 纸 版 书 的 价格 。 


有 些 程序 员 过 于 关注 程序 的 效率 ;由 于 太 在 乎 细小 的 “优化 ”"， 他 
们 编写 出 的 程序 过 于 精妙 ， 难 以 维护 。 而 男 外 一 些 程序 员 很 少 关 注 程 
序 的 效率 ， 他 们 编写 的 程序 有 着 清晰 漂亮 的 结构 ， 但 效率 极 低 以 至 于 
上 毫 无 用 处 。 优 秀 的 程序 员 将 程序 的 效率 纳入 整体 考虑 之 中 ， 效率 只 是 
软件 中 的 众多 问题 之 一 ， 但 有 时 候 也 很 重要 。 

前 面 各 章 已 经 讨论 了 提高 效率 的 高 层次 方法 : 问题 定义 、 系 统 结 
构 、 算 法 设计 以 及 数据 结构 选择 。 本 章 讨论 一 个 低层 次 方法 。" 代 码 调 
优 ” 首 先 确定 程序 中 开销 较 大 的 部 分 ， 然 后 进行 少量 的 修改 ， 以 提高 其 
运行 速度 。“ 代 码 调 优 ”并 不 总 是 恰当 的 方法 ， 也 不 太 有 趣 ， 但 是 有 时 
候 它 确实 可 以 使 程序 的 性 能 大 为 改观 。 


9.1 典型 的 故事 


一 天 午后 不 久 ， 我 和 Chris Van Wyk 在 一 起 谈论 代码 调 优 的 问题 ， 
然后 他 就 去 改进 一 个 C 程 序 了 。 几 小 时 之 后 ， 他 将 一 个 3 000 行 的 图 形 
程序 的 运行 时 间 减 少 了 一 半 。 

尽管 处 理 和 常见 图 像 的 运行 时 间 已 经 大 大 缩短 了 ， 该 程序 处 理 某 些 
复杂 的 图 片 时 仍然 要 花费 10 分 钟 的 时 间 。Van Wyk 所 采取 的 第 一 步 就 古 
监视 程序 的 性 能 ， 以 确定 每 个 函数 需要 花费 的 时 间 (下 一 页 对 一 个 类 


似 但 规模 小 一 些 的 程序 进行 了 性 能 监视 ) 。 在 10 幅 常见 测试 图 片上 的 
运行 结果 表明 ， 几 乎 70% 的 运行 时 间 都 用 在 了 内 存 分 配 函 数 malloc 上 。 

Van Wyk 的 第 二 步 就 是 研究 内 存 分 配 程 序 。 因 为 他 的 程序 通过 一 个 
提供 错误 检测 的 函数 来 访问 malloc， 所 以 他 可 以 修改 该 画 数 ， 而 不 必 分 
析 malloc 的 源 代码 。 在 插入 了 几 行 计数 代码 后 ， 他 发 现 最 常见 记录 类 型 
的 空间 分 配 次 数 是 次 常见 记录 类 型 的 30 倍 。 如 果 你 知道 了 程序 的 大 部 
分 运行 时 间 都 用 于 为 某 一 类 型 的 记录 分 配 存储 空间 ， 你 会 如 何 进行 改 
进程 序 使 其 运行 得 更 快 呢 ? 

Van Wyk 应 用 高 速 缓存 原理 解决 了 这 个 问题 : 最 经 常 访 问 的 数据 ， 
其 访问 开销 应 该 是 最 小 的 。 他 对 程序 进行 了 修改 ， 将 最 常见 类 型 的 空 
闪 记 录 缓 存在 一 个 链表 中 。 然 后 ， 他 就 可 以 通过 对 该 链表 的 快速 访问 
来 处 理 常见 的 请 求 ， 而 不 必 调 用 通用 的 内 存 分 配 程 序 ， 这 使 得 程序 的 
总 运行 时 间 缩 短 为 原先 的 459% (于 是 内 存 分 配 程 序 现在 大 约 占 用 总 运行 
时 间 的 30%) 。 男 一 个 额外 的 好 人 处 就 是 修改 后 的 分 配 程序 减少 了 内 存 
雁 片 ， 这 使 得 我 们 能 够 更 加 有 效 地 使 用 主 存 。 答 案 2 给 出 了 该 古老 技术 
的 另 一 种 实现 ; 在 第 13 章 中 ， 我 们 将 多 次 使 用 类 似 的 方法 。 

这 个 故事 极 好 地 展示 了 代码 调 优 艺术 。 通 过 花费 几 小 时 的 时 间 进 
行 度量 并 向 3 000 行 代码 的 程序 中 添加 约 20 行 代码 ，Van Wyk 在 不 改变 
用 户 视 图 也 不 增加 维护 难度 的 前 提 下 将 程序 的 运行 速度 加 快 了 一 倍 。 
他 使 用 一 般 性 的 工具 就 取得 了 这 种 加 速 : 通过 性 能 监视 识别 出 程序 中 
的 “热点 >， 然 后 使 用 高 速 缓存 减少 其 运行 时 间 。 

下 面 对 一 个 规模 小 一 些 的 常见 C 程序 进行 了 性 能 监视 ， 其 形式 和 
内 容 都 和 Van Wyk 的 性 能 监控 很 类 似 : 


Func % Func+Child % Hit Function 


Time Time Count 

1413.406 S28 1413.406 52.8 200002 malloc 
474.441 Lies 2109: 506 78.8 200180 insert 
285.298 TO 1635.065 a oe 250614 rinsert 
174.205 635 2675.624 100.0 1 main 

TS 7 3S Bd LoVe SS Se 1 report 
143.285 5.4 143.285 5.4 200180 bigrand 
27.854 LQ 91.493 3.4 1 initbins 


该 运行 结果 表明 ， 大 部 分 时 间 都 消耗 在 malloc 上 了。 习题 2 要 求 我 
们 通过 缓存 结 点 来 减少 该 程序 的 运行 时 间 。 


9.2 和 急 ; 


现在 我 们 将 目光 从 大 程序 转向 几 个 小 函数 。 每 个 小 函数 都 描述 了 
一 个 我 曾 在 不 同 场合 下 遇 到 过 的 问题 。 这 些 问 题 占 用 了 其 所 在 应 用 程 
序 的 大 部 分 运行 时 间 。 我 们 给 出 的 解决 方案 也 都 具有 一 般 性 。 

问题 1 一 一 整数 取 模 。2.3 节 人 简要 介绍 了 实现 向 量 旋转 的 三 种 算法 。 
答案 2.3 在 内 循环 中 使 用 下 面 的 运算 实现 了 “ 灯 拉 ”算法 : 

k = ( j + rotdist)%6n; 

附录 C 中 的 开销 模型 表明 ，C 语 言 的 模 运 算 符 % 开 销 较 大 :大 多 数 
算术 运算 需要 约 10 纳 秒 的 时 间 ， 而 模 运 算 需 要 的 运行 时 间接 近 100 纳 
秒 。 使 用 下 面 的 代码 实现 % 运 算 或 许可 以 减少 程序 的 运行 时 间 : 

k =j + rotdist; 

if (k >=n) 

k -= n; 

该 代码 使 用 一 次 比较 运算 和 一 次 〈 很 少 执行 的 ) 减法 运算 取代 了 

高 开销 的 模 运 算 。 但 是 这 样 做 对 整个 函数 的 运行 时 间 会 有 影响 吗 ? 


我 第 一 次 运行 该 程序 时 将 旋转 距离 rotdist 设 置 为 1， 程 序 的 运行 时 
间 从 119n 纳 秒 下 降 至 57n 纳 秒 ， 速 度 几 乎 提高 了 一 倍 。62 纳 秒 的 加 速 结 
果 与 开销 模型 中 的 预测 很 接近 。 

第 二 次 实验 时 ， 我 将 rotdist 设 置 为 10。 我 慰 襄 地 发 现 这 两 个 算法 的 
运行 时 间 部 是 206n 纳 秒 。 通 过 进行 与 答案 2.4 中 的 图 相似 的 实验 ， 我 
很 快 找到 了 原因 : 当 rotdist=1 时 ， 算 法 顺序 访问 内 存 ， 模 运算 决定 了 程 
序 的 运行 时 间 。 而 当 rotdist=10 时 ， 代 码 在 内 存 中 每 隔 10 个 字 才 访问 一 
次 ， 因 此 大 部 分 运行 时 间 用 于 将 RAM 的 内 容 读 入 高 速 缓存 。 

在 过 去 ， 程 序 员 知 道 ， 如 果 程 序 的 运行 时 间 主 要 消耗 在 输入 输出 
上 ， 那 么 对 程序 中 的 计算 进行 加 速 是 毫 无 意义 的 。 在 现代 的 体系 结构 
中 ， 如 果 对 内 存 的 访问 占用 了 大 量 的 运行 时 间 ， 那 么 减少 计算 时 间 同 
样 是 毫 无 意义 的 。 

问题 2 一 一 函数 、 宏 和 内 联 代码 。 在 第 8 章 中 ， 我 们 多 处 对 两 个 值 
中 的 最 大 值 进行 了 计算 。 例 如 ， 在 8.4 节 中 ， 我 们 使 用 了 类 似 下 面 的 代 
fy: 


maxendinghere = max(maxendinghere,0); 


maxsofar = max(maxsofar,maxendinghere); 

max KAROR E SBA AE: 

float max(float a,float b) 

{ return a >b ? a:b; } 

这 个 程序 的 运行 时 间 大 约 是 89n 纳 秒 。 

以 前 的 C 语 言 程 序 员 可 能 会 下 意识 地 使 用 宏 来 替换 max 函 数 : 

#define max(a,b)((a)>(b)?(a): (b)) 

这 当然 更 加 难看 并 且 更 容易 出 错 。 对 于 许多 优化 编译 絮 来 说 ， 两 
者 根本 就 没有 什么 区 别 (这 一 类 编译 器 以 内 联 的 方式 编写 较 小 的 函 
数 ) 。 然 而 ， 在 我 的 系统 中 ， 这 一 改变 将 算法 4 的 运行 时 间 从 89n 纳 秒 
减少 到 了 47n 纳 秒 。 加 速 系数 接近 2 。 


我 高 兴 地 将 这 一 方法 应 用 到 8.3 节 中 的 算法 3， 却 失望 地 发 现 : 当 
n=10 000 时 ， 程 序 的 运行 时 间 从 10 训 秒 增 加 到 了 100 秒 ， 减 速 系 数 达 到 
了 10 000。 宏 似乎 使 得 算法 3 的 运行 时 间 从 原来 的 O(n log n) 增 加 到 了 近 
乎 Oo“ )。 我 很 快 就 发 现 ， 宏 那 种 按 名 称 调用 的 语义 导致 算法 3 对 自身 
的 递归 调用 超过 了 两 次 ， 因 此 增加 了 其 渐 近 运行 时 间 。 习 题 4 给 出 了 这 
一 类 减速 的 一 个 更 加 极端 的 例子 。 

C 程 序 员 经 常 需要 在 性 能 和 正确 性 之 间 进 行 折 中 ， 而 C++ 程序 员 却 
可 以 享受 鱼 与 能 掌 兼 得 的 快乐 。C++ 人 允许 对 某 一 函数 进行 内 联 编译 ， 这 
就 兼 得 了 函数 的 简洁 语义 和 宏 的 低廉 开销 。 

在 好 奇 心 的 驱使 下 ， 我 既 不 使 用 宏 ， 也 不 使 用 函数 ， 而 是 使 用 if 语 
句 实现 该 计算 : 


if (maxendinghere < 0) 


maxendinghere = 0; 
if (maxsofar < maxendinghere) 

maxsofar = maxendinghere; 
运行 时 间 基 本 上 没有 变化 。 
问题 3 一 一 顺序 搜索 。 现 在 我 们 将 目光 转向 (可 能 未 排序 的 ) 表 中 

的 顺序 搜索 : 

int ssearch1(t) 

for i = [0,n) 

if x[i] ==t 


return i 
return -1 
这 段 简洁 的 代码 平均 需要 花 4.06n 纳 秒 的 时 间 来 查找 数组 x 中 的 某 一 
元 素 。 因 为 在 一 次 常见 的 成 功 搜索 中 ， 代 码 只 需要 检索 数组 中 一 半 的 
元 素 ， 所 以 平均 论 在 表 中 每 个 元 素 上 的 时 间 大 约 为 8.1 纳 秒 。 


该 循环 已 经 很 简洁 了 ， 但 还 可 以 再 进行 少许 精简 。 内 循环 中 有 两 
种 测试 : 第 一 种 测试 检验 i 是否 已 到 达 数 组 末尾 ， 第 二 种 测试 检验 x[j] 
是 否 为 所 需 的 元 素 。 只 要 在 该 数组 的 末尾 放置 一 个 哨兵 值 ， 就 可 以 把 
第 一 种 测试 也 替换 为 第 二 种 测试 : 
int ssearch2(t) 
hold = x[n] 
x[n] =t 


for (i = 0; ; i++) 
if x[i] == t 
break 
x[n] = hold 
ifi==n 
return -1 
else 
return i 
这 一 改进 使 运行 时 间 降 低 至 3.87n 纳 秒 ， 大 约 加 速 了 59%“。 上 述 代码 
假设 已 经 为 该 数组 分 配 了 内 存 ， 因 此 x[n] 可 以 被 临时 和 覆盖。 该 代码 谨 
慎 地 保存 了 x[n] 并 在 搜索 之 后 对 其 进行 了 恢复 ， 这 在 大 多 数 应 用 场合 
中 都 是 不 必要 的 ， 所 以 下 一 个 版 本 中 将 删 掉 该 部 分 。 
现在 最 内 层 人 循环 只 包公 一 次 目 增 、 一 次 数组 访问 以 及 一 次 测试 。 
还 有 办 法 进一步 减少 程序 的 运行 时 间 吗 ? 我 们 最 终 的 顺序 搜索 程序 将 
循环 展开 8 次 来 删除 目 增 ， 进 一 步 的 展开 不 会 取得 更 好 的 加 速效 打 。 


int ssearch3(t) 
x[n] =t 
for (i = 0; ; i += 8) 
if eli ]==t){ break } 


if (x[i+1] == t) {i += 1; break } 


if (x[i+2] == t) {i += 2; break } 
if (x[i+3] == t) {i += 3; break } 
if (x[i+4] == t) {i += 4; break } 
if (x[i+5] == t) {i += 5; break } 
if (x[i+6] == t) {i += 6; break } 
if (x[i+7] == t) {i += 7; break } 
ifi==n 
return -1 
else 
return i 
这 一 修改 使 运行 时 间 降 低 至 1.70n 纳 秒 ， 减 少 了 大 约 56%。 对 老式 计 
算 机 来 说 ， 降 低 开销 可 以 加 速 10% 或 20%。 对 于 现代 的 计算 机 来 说 ， 将 
循环 展开 则 有 助 于 避免 管道 阻塞 、 减 少 分 文 、 增 加 指令 级 的 并 行 性 。 
问题 4 一 一 计算 球面 距离 。 最 后 一 个 问题 在 处 理 地 理 或 儿 何 数据 的 
应 用 中 很 常见 。 输 入 的 第 一 部 分 是 球面 上 5 000 个 点 组 成 的 集合 S， 每 个 
点 都 使 用 经 度 和 纬度 表示 。 将 这 些 点 存储 在 我 们 选 定 的 数据 结构 中 以 
后 ， 程 序 读 取 输 入 的 第 二 部 分 : 由 20 000 个 点 组 成 的 序列 ， 每 个 点 都 
使 用 经 度 和 纬度 表示 。 对 于 该 序列 中 的 每 个 点 ， 程 序 必 须 指 出 S$ 中 哪个 
点 最 接近 它 。 这 里 距离 使 用 球体 中 心 与 两 个 点 的 连 线 之 间 的 夹 角 来 度 


三 


里 


20 世 纪 80 年 代 早 期 ，Margaret Wright 就 磁 到 过 类 似 的 问题 ， 她 当时 
在 斯 坦 福 大 学 ， 要 对 地 图 进行 计算 ， 以 总 结 某 些 特定 基因 特征 的 全 球 
分 布 。 她 的 解决 方案 很 直观 ， 将 集合 S 表 示 成 包含 经 度 和 纬度 值 的 数 
组 。 对 于 序列 中 的 每 个 点 ， 通 过 计算 它 到 S 中 每 一 个 点 的 距离 来 确定 S 
中 和 它 最 接近 的 点 。 计 算 过 程 中 需要 用 到 一 个 包含 10 个 正弦 和 余弦 函 
数 的 复杂 三 角 公 式 。 尽 管 该 程序 编码 很 简单 ， 并 且 对 小 型 数据 集 也 能 


得 到 不 错 的 结果 ; 但 是 对 于 大 型 地 图 来 说 ， 即 使 在 大 型 机 上 运行 也 需 
要 花费 几 个 小 时 ， 这 大 大 超出 了 项 目的 预算 。 

由 于 我 以 前 处 理 过 几何 方面 的 问题 ， 所 以 Wright 请 我 来 解决 这 个 问 
题 。 人 花费 近 一 个 周末 的 时 间 之 后 ， 我 开发 出 了 几 个 别出心裁 的 算法 和 
数据 结构 来 解决 这 个 问题 。 幸 运 的 是 〈 现 在 回 过 头 来 看 ) ， 这 些 算法 
都 需要 好 几 百 行 的 代码 ， 所 以 我 没有 演 试 去 实现 这 几 种 算法 。 当 我 辣 
Andrew Appel 描 述 这 些 数 据 结 构 时 ， 他 发 现 了 一 个 关键 点 : 为 什么 一 
定 要 在 数据 结构 的 层面 解决 这 个 问题 呢 ? 为 什么 不 使 用 简单 的 数据 结 
构 ， 将 这 些 点 保存 在 一 个 数组 中 ， 通 过 调 优 代 码 来 降低 各 点 之 间距 离 
的 计算 开销 呢 ? 如 何 实现 他 的 这 一 思想 ? 

更 改 点 的 表示 法 可 以 大 大 地 减少 开销 : 我 们 不 使 用 经 度 和 纬度 来 
表示 点 ， 而 是 使 用 x、y 和 z 坐 标 表示 球面 上 点 的 位 置 。 这 样 ， 所 用 的 数 
据 结构 就 是 一 个 数组 ， 它 不 仅 包 含 了 每 个 点 的 经 度 和 纬度 (其 他 运算 
或 许 还 需要 这 些 信息 ) ， 还 包含 了 该 点 的 三 个 笛 卡 儿 坐 标 。 当 程序 处 
理 序 列 中 的 每 个 点 时 ， 先 用 一 些 三 角 函 数 将 其 经 度 和 纬度 转换 成 x、y 
和 z 坐 标 ， 然 后 计算 该 点 到 集合 S$ 中 每 个 点 的 距离 。 它 到 $ 中 某 点 的 距离 
为 三 个 维度 上 差 值 的 平方 和 。 通 党 这样 的 系统 开销 要 比 计算 一 个 三 角 
函数 的 开销 少 很 多 ， 更 不 用 说 10 个 三 角 函 数 了 。 (附录 C 中 的 运行 时 间 
开销 模型 给 出 了 某 个 系统 中 的 详细 讨论 。) 因为 两 个 点 之 间 的 角度 随 
着 它们 欧 氏 距离 的 平方 的 增加 而 单调 增加 ， 所 以 此 方法 计算 的 答案 是 
正确 的 。 

尽管 这 个 方法 需要 额外 的 存储 空间 ， 但 它 这 来 了 巨大 的 好 处 : 
Wright 将 该 改动 写 入 她 的 程序 之 后 ， 处 理 复 洒 地 图 的 运行 时 间 由 几 小 时 
降低 为 半分 钟 。 在 这 个 例子 中 ， 我 们 通过 代码 调 优 ， 只 需要 增加 几 十 
行 的 程序 代码 就 能 解决 该 问题 ， 而 如 果 更 改 算法 和 数据 结构 ， 则 需要 
增加 好 几 百 行 的 代码 。 


9.3 大 手术 一 一 二 


现在 来 看 看 我 所 知道 的 有 关 代 码 调 优 的 最 极端 的 例子 之 一 。 细 市 
问题 可 以 从 习题 4.8 中 得 知 : 在 包含 1 000 个 整数 的 表 中 进行 二 分 搜索 。 
在 我 们 研究 该 问题 时 ， 请 记 住 在 二 分 搜索 中 通常 不 需要 代码 调 优 一 
二 分 搜索 算法 的 效率 很 高 ， 对 其 进行 代码 调 优 通常 是 多 余 的 。 因 此 ， 
我 们 在 第 4 章 中 忽略 了 微观 效率 ， 致 力 于 获得 一 个 简单 、 正 确 且 可 维护 
的 程序 。 但 是 有 时 调 优 过 的 二 分 搜索 可 能 会 对 整个 系统 的 性 能 产生 很 

影响 。 

下 面 连续 开发 了 四 个 快速 的 二 分 搜索 程序 。 它 们 都 很 复杂 ， 但 是 
我 们 有 充分 的 理由 来 开发 这 四 个 程序 : 最终 程 序 的 运行 速度 通常 是 4.2 
节 中 的 二 分 搜索 程序 的 2~3 倍 。 在 继续 往 下 阅读 之 前 ， 你 能 指出 原 移 这 
段 二 分 搜索 代码 中 的 明显 浪费 吗 ? 

l= 0;u = n-1 

loop 


/* invariant: if t is present,it is in x[]..u]*/ 
ifl>u 
p = -1; break 
m = (l + u)/2 
case 
x[m] <t: | = m+1 
x[m] == t: p = m; break 
x[m] > t: u = m-1 
首先 从 一 个 修改 过 的 问题 来 开始 开发 我 们 的 快速 二 分 搜索 程序 : 
确定 整数 数组 x[0..n-1] 中 整数 第 一 次 出 现 的 位 置 (在 15.3 节 中 ， 我 们 需 
要 的 就 是 这 样 的 搜索 ) 。 而 在 t 多 次 出 现 的 情况 下 ， 上 述 代 码 则 可 能 会 
返回 其 中 的 任意 一 个 位 置 。 新 程序 的 主 循环 与 上 面 的 程序 类 似 ; 我 们 


仍 使 用 下 标 1 和 u 指 示 数 组 中 包含 t 的 部 分 ， 但 不 变 式 关 系 变 为 x[1] < 
t<x[u] 和 1<u。 此 外 ， 我 们 假设 n>0，x[-1] <t 以 及 x[n]>t (但 是 程序 并 不 
访问 这 两 个 假想 的 元 素 ) 。 现 在 的 二 分 搜索 代码 如 下 : 
l=-l;u=n 
while 1+1 !=u 
/* invariant: x[]] < t && x[u]>= t&& 1 <u */m = (1 + u)/2 
if x[m] <t 
l=m 
else 
u=m 
/* assert I+] = u && x[]] < t && x[u] >= t*/ 
p=u 
if p >= n|| x[p] !=t 
p=-l 
第 一 行 代码 初始 化 不 变 式 。 循 环 重复 时 ， 由 f 语 句 来 保持 该 不 变 式 
的 正确 性 ， 很 容易 检验 出 ， 这 两 个 分 支 痢 保持 了 该 不 变 式 的 正确 性 。 
循环 终止 时 ， 我 们 知道 如 果 t 存 在 于 数组 中 ， 那 么 t 的 第 一 次 出 现在 位 置 
u; 更 正式 的 陈述 见 assert 注 释 。 最 后 两 个 语句 对 p 赋 值 ， 如 果 t 在 x 中 ， 
那么 将 p 置 为 第 一 次 出 现 的 下 标 ; 如 果 t 不 在 数组 中 ， 则 将 p 置 为 -1 。 
虽然 这 个 二 分 搜索 程序 解决 的 问题 要 比 原先 的 程序 所 解决 的 问题 
更 难 ， 但 却 可 能 更 高 效 : 在 每 次 循环 欠 代 中 ， 它 只 对 t 和 x 中 的 元 素 作 一 
次 比较 ， 而 原先 的 程序 有 时 必须 比较 两 次 。 
下 一 版 本 的 程序 将 首次 利用 n=1 000 这 个 已 知 条 件 。 该 程序 使 用 了 
一 个 不 同 的 范围 表示 方法 : 我 们 不 使 用 1.u 来 表示 上 下 限 值 ， 而 是 使 用 
下 限 值 1 以 及 增 量 i 来 表示 ， 使 得 1 + i = u。 程 序 代 码 将 确保 ij 总 是 2 的 寡 ; 
该 性 质 很 容易 保持 ， 但 是 一 开始 难以 获得 (因为 数组 的 大 小 n 等 于 1 
000) 。 因 此 在 程序 的 开始 部 分 先 使 用 了 赋值 语句 和 并 语句 ， 以 确保 初 


始 的 搜索 范围 大 小 为 512， 即 小 于 1 000 的 数 中 最 大 的 2 的 寡 。 这 样 1 和 
1+i 一 起 要 么 表示 -1..511， 要 么 表示 488..1 000。 使 用 这 个 新 的 范围 表示 
方法 转换 前 面 的 二 分 搜索 程序 ， 得 到 下 面 的 代码 ; 
i= 512 
1]= -1 
if x[511] <t 
1 = 1000 - 512 
while i != 1 
/* invariant: X[ < t && x[l+i] >= t&& i = 2/j */nexti = i/2 


if x[l+nexti] < t 


| =1+ nexti 

i = nexti 
else 

i = nexti 

/* assert i == | && x[l] < t && x[l+i] >= t */ 

p=1+1 

if p > 1000 || x[p] !=t 

p=-l 

该 程序 正确 性 的 证 明和 前 一 程序 的 证 明 完全 一 样 。 这 段 代 码 通常 
要 比 前 一 个 程序 慢 一 些 ， 但 它 为 将 来 的 加 速 打开 了 方便 之 门 。 

下 一 程序 是 上 述 程 序 的 简化 ， 它 加 入 了 智能 编译 句 可 能 会 执行 的 
某 些 优化 : 和 商 化 了 第 二 个 谋 语句 ， 删 除了 变量 nexti， 并 从 循环 内 的 这 语 
句 中 删除 了 对 nexti 的 赋值 。 

i= 512 

l= -1 

if x[511] <t 

] = 1000 - 512 


while i != 1 
/* invariant: x[]] < t && x[]+i] >= t&& i = 2/j */ 
i=i/2 
if x[l+i] < t 
beta 
/* assert i == 1 && x[l] < t && x[l+i] >= t */ 
p=1+1 
if p > 1000 || x[p] !=t 
p=-l 
虽然 该 程序 代码 正确 性 的 证 明 仍 然 气 上 述 程序 相同 ， 但 现在 我 们 
可 以 更 直观 地 理解 其 运行 。 当 第 一 个 测试 失败 ， 并 且 1 保 持 为 0 时 ， 程 序 
依次 计算 p 的 各 个 位 ， 并 且 最 高 有 效 位 优先 计算 。 
程序 代码 的 最 后 一 个 版 本 需要 用 心 研究 一 下 。 它 展开 了 整个 循 
环 ， 从 而 消除 了 循环 控制 和 i 被 2 除 的 开销 。 因 为 i 在 程序 中 只 有 10 个 互 
不 相同 的 值 ， 所 以 我 们 可 以 将 它们 全 部 写 在 代码 中 ， 从 而 避免 在 运行 
时 重复 计算 。 
1= -1 
if (x[511] < t) 1= 1000-512 
/* assert x[]] <t && x[1+512] >= t */if (XU+256]< t) 1 += 256 
/* assert X[]] <t && x[1+256] >= t */if (x[l+128] < t) 1 += 128 
if (x[1+64 ] < t)1+= 64 
if (x[1+32 ] < t) 1 += 32 
if (x[1+16 ] < t) l += 16 
if (x[l+8 ]<t)1+=8 
if (x[l+4 ] <t)1+= 4 
if (x[l+2 ] < t) 1+= 2 
/* assert X[]] <t && x[l+2 ] >= t */if (x[l+1 ] < t) 1 += 1 


/* assert x[]] <t && x[l+1 ] >= t */p = 1+1 
if p > 1000 || x[p] !=t 
p=-l 

我 们 可 以 通过 插入 与 对 x[l+256] 的 测试 之 前 和 之 后 的 断言 类 似 的 断 
言语 句 来 理解 这 段 程序 代码 。 一 旦 完成 了 对 该 让 语句 作用 的 二 元 分 析 ， 
所 有 其 他 的 让 语句 也 束 随 之 迎刃而解 了 。 

我 曾 在 多 个 不 同 的 系统 上 比较 过 4.2 节 中 的 原始 二 分 搜索 和 上 述 仔 
细 调 优 过 的 二 分 搜索 。 本 书 的 第 一 版 给 出 了 在 四 台 机 器 、 五 种 编程 语 
言 以 及 若干 个 优化 水 平 下 的 运行 时 间 ， 运 行 时 间 缩 短 的 范围 从 38% 到 
80% 不 等 。 我 在 现在 的 机 器 上 实验 时 ， 惊 喜 地 发 现 当 n=1 000 时 ， 每 次 
搜索 的 时 间 从 350 纳 秒 减少 到 了 125 纳 秒 (减少 了 64%) ° 

这 样 的 加 速 结 果 好 得 让 人 难以 置信 ， 但 是 事实 就 是 这 样 。 深 入 的 
观察 表明 ， 我 的 计时 脚手架 依次 搜索 每 个 数组 元 素 : 首先 x[0]， 然 后 
x[1]， 依 此 类 推 。 这 就 给 二 分 搜索 提供 了 特别 有 利 的 内 存 访 问 模 式 以 及 
极 好 的 分 文 预测 。 于 是 我 将 脚手架 更 改 为 按 随 机 顺序 搜索 元 素 。 原 始 
二 分 搜索 的 运行 时 间 为 418 纳 秒 ， 而 循环 展开 之 后 的 程序 的 运行 时 间 为 
266 纳 秒 ， 加 速 了 36%。 

这 种 推导 给 出 了 在 最 极端 的 情况 下 进行 代码 调 优 的 理想 化 的 理 
由 。 我 们 用 一 个 非常 精炼 的 、 本 质 上 也 更 快 的 程序 蔡 换 了 原先 那个 浅 
显 的 二 分 搜索 程序 〈 该 程序 看 起 来 也 挺 简洁 的 ) 。 (自从 20 世 纪 60 年 
代 早 期 起 ， 此 函数 就 已 经 在 计算 机 界 小 有 和 名气 了 。 我 是 在 20 世 纪 80 年 
代 早 期 从 Guy Steele [13] 那里 学 到 的 ， 而 Guy Steele 是 在 MIT 学 会 的 ， 该 
函数 从 20 世 纪 60 年 代 末 期 开始 就 在 MIT 出 名 了 。Vic Vysstosky 在 1961 年 
的 时 候 在 贝尔 实验 室 使 用 过 这 段 代码 ， 他 将 伪 代 码 中 的 每 一 条 if 语 句 都 
实现 为 三 条 IBM 7 090 指 令 。) 

第 4 章 的 程序 验证 工具 在 这 个 过 程 中 起 到 了 关键 的 作用 。 正 是 因 
为 使 用 了 程序 验证 技术 ， 所 以 我 们 可 以 相信 最 终 的 程序 是 正确 的 。 在 


我 第 一 次 看 到 这 个 最 终 的 代码 时 ， 它 既 没 有 推导 ， 也 没有 验证 ， 看 起 
来 就 像 在 变 魔 术 一 样 。 


9.4 原理 


代码 调 优 的 最 重要 原理 承 是 尽量 少 用 它 。 这 一 筹 统 的 叙述 可 以 用 
以 下 几 点 加 以 解释 。 

效率 的 角色 。 软 件 的 其 他 许多 性 质 和 效率 一 样 重要 ， 甚 至 更 重 
要 。Don Knuth 观 察 发 现 ， 不 成 熟 的 优化 是 大 量 编程 灾害 的 根源 ， 它 会 
危及 程序 的 正确 性 、 功 能 性 以 及 可 维护 性 。 当 可 能 的 危害 影响 较 大 
时 ， 请 考虑 适当 将 效率 放 一 放 。 

度量 工具 。 当 效率 很 重要 时 ， 第 一 步 就 是 对 系统 进行 性 能 监视 ， 
以 确定 其 运行 时 间 的 分 布 状况 。 对 程序 进行 性 能 监视 的 结果 通常 类 
似 : 多 数 的 时 间 都 消耗 在 少量 的 热点 代码 上 ， 而 余下 的 代码 则 很 少 执 
行 〈 例 如 ， 在 6.1 让 中， 一 个 函数 束 占 用 了 98% 的 运行 时 间 ) 。 人 性 能 监视 
可 以 帮助 我 们 找到 程序 中 的 关键 区 域 ， 对 于 其 他 区 域 ， 我 们 遵循 有 名 
的 格言 “没有 坏 的 话 就 不 要 修 *。 与 附录 C 中 的 运行 时 间 开 销 模 型 类 似 的 
模型 有 助 于 程序 员 理 解 为 什么 某 些 特定 的 运算 和 范 数 的 时 间 开 销 比 较 
ay o 

设计 层面 。 在 第 6 章 中 我 们 已 看 到 ， 效 率 问 题 可 以 由 多 种 方法 来 解 
决 。 只 有 在 确信 没有 更 好 的 解决 方案 时 才 考 虑 进行 代码 调 优 。 

双 刃 剑 。 使 用 计 语 句 替 换 模 运 算 有 时 候 可 以 使 速度 加 倍 ， 有 时 候 却 
对 运行 时 间 没 什么 影响 。 将 函数 转换 为 宏 可 以 使 某 个 函数 速度 加 倍 ， 
却 也 可 能 使 另 一 个 函数 的 速度 减 慢 为 原来 的 万 分 之 一 。 在 进行 “改进 ” 
之 后 ， 用 具有 代表 性 的 输入 来 度量 程序 的 效果 是 至 关 重 要 的 。 这 样 的 
故事 不 胜 枚 举 ， 因 此 ， 我 们 必须 重视 Jurg Nievergelt 对 代码 调 优 人 员 的 
警告 : 玩 火 者 ， 小 心目 焚 。 


上 述 讨 论 考 虑 了 是 否 需要 以 及 何 时 进行 代码 调 优 的 问题 。 一 旦 决 
定 了 需要 进行 代码 调 优 ， 余 下 的 问题 就 是 如 何 进 行 调 优 了 。 附 录 DD 包 含 
了 一 系列 有 天 代码 调 优 的 通用 法 则 。 我 们 前 面 提 到 的 所 有 例子 都 可 以 
用 这 些 法 则 来 解释 。 下 面 我 来 示范 一 下 ， 法 则 的 名 称 用 楷体 表示 。 

Van Wyk 的 图 形 程 序 。Van Wyk 的 解决 方案 的 一 般 性 策略 就 是 高 效 
处 理 常 见 情况 。 在 那个 具体 例子 中 他 高 速 缓存 了 一 些 最 常见 类 型 的 记 
录 o 

问题 1 一 一 整数 取 模 。 该 解决 方案 利用 等 价 的 代数 表达 式 ， 使 用 低 
开销 的 比较 取代 了 高 开销 的 取 模 运算 。 

问题 2 一 一 函数 、 宏 和 内 联 代码 。 通 过 使 用 宏 蔡 换 范 数 来 打破 函数 
层次 ， 这 样 几 乎 可 以 使 速度 提高 一 倍 ， 但 是 进一步 将 代码 写成 内 联 的 
形式 却 看 不 到 明显 的 改善 。 

问题 3 一 一 顺序 搜索 。 使 用 哨兵 来 合并 测试 条 件 可 以 获得 大 约 526 
的 加 速 。 循 环 展 开 则 可 以 得 到 大 约 56% 的 额外 加 速 。 

问题 4 一 一 计算 球面 距离 。 将 笛 卡 儿 坐 标 和 经 度 、 纬 度 存 储 在 一 起 
是 修改 数据 结构 的 一 个 例子 ， 使 用 开销 较 低 的 欧 氏 距离 而 不 是 角度 距 
离 属 于 利用 等 价 的 代数 表达 式 。 

二 分 搜索 。 合 并 测试 条 件 将 每 次 内 循环 的 数组 比较 次 数 从 两 次 减 
少 为 一 次 ; 利用 等 价 的 代数 表达 式 使 得 我 们 能 够 将 上 下 限 的 表示 方法 
转换 为 下 限 与 增 量 表示 法 ;循环 展开 将 程序 展开 以 消除 所 有 的 循环 开 
销 。 

迄今 为 止 ， 我 们 进行 代码 调 优 的 目的 都 是 减少 CPU 时 间 。 我 们 也 
可 以 将 代码 调 优 用 于 其 他 目的 ， 比 如 减少 分 页 或 增加 高 速 缓存 命中 
谊 。 除 了 减少 运行 时 间 以 外 ， 代 码 调 优 最 常见 的 目的 或 许 惑 是 减少 程 
序 所 需要 的 空间 了 “。 下 一 章 将 探讨 空间 的 节省 问题 。 


9.5 习题 


1. 对 你 目 己 写 的 某 一 个 程序 进行 性 能 监视 ， 然 后 设法 使 用 本 章 中 所 
接 述 的 方法 减少 其 热点 的 运行 时 间 。 

2. 本 书 网 站 上 提供 了 那个 在 本 章 开 始 部 分 进行 过 性 能 监视 的 C 程 
序 ， 它 实现 了 第 13 章 中 一 个 C++ 程序 的 一 个 小 子 集 。 请 尝试 在 你 的 系 
统 上 对 其 进行 性 能 监视 。 除 非 你 有 一 个 特别 高 效 的 malloc 函数 ， 否 则 
程序 的 绝 大 部 分 时 间 可 能 都 会 消耗 在 malloc 上 。 请 尝试 一 下 通过 实现 诸 
如 Van Wyk 那 样 的 结 点 缓存 来 减少 程序 的 运行 时 间 。 

3 杂技 ?旋转 算法 的 哪些 特殊 性 质 允 许 我 们 使 用 计 语 句 而 不 是 开销 
更 高 的 while 语 句 来 替换 取 模 运算 ? 通过 实验 确定 在 什么 情况 下 值得 使 
用 while 语句 来 蔡 换 取 模 运算 。 

4. 磊 n 是 最 大 为 数组 大 小 的 正 整 数 ， 则 下 面 的 递归 CC 函数 将 返回 数 
组 x[0..n-1] 中 的 最 大 值 : 

float arrmax(int n) 

{ if (n == 1) 


return x[0]; 


else 
return max(x[n-1],arrmax(n-1)); 

Emax KKZ, ERA AILEY ZAK A An=10 000 个 元 素 
AA] St PER AIC ° Fmax AA PERAICA: 

#define max(a,b) ((a) >(b) ? (a) : (b)) 

则 该 算法 花 6 秒 钟 的 时 间 才 能 找 出 n=27 个 元 素 中 的 最 大 值 ， 花 12 秒 
钟 的 时 间 才 能 找 出 n=28 个 元 聚 中 的 最 大 值 。 试 给 出 一 个 可 以 反映 该 精 
料 结 果 的 输入 ， 并 从 数学 上 分 析 其 运行 时 间 。 

5. 如 果 (违反 规范 说 明 ) 将 各 种 不 同 的 二 分 搜索 算法 应 用 于 未 排序 
的 数组 ， 结 果 会 如 何 呢 ? 

6.C 和 C++ 库 提 供 了 字符 分 类 函数 (如 isdigit、isupper 及 islower) 来 
确定 字符 的 类 型 。 你 会 如 何 实现 这 些 函 数 呢 ? 


7. 给 定 一 个 非常 长 的 字 节 序列 (假设 有 十 亿 或 万 亿 ) ， 如 何 高 效 地 
统计 1 的 个 数 呢 ?” (也 就 是 说 ， 在 整个 序列 中 有 和 多少 个 位 的 值 为 1? ) 

8. 如 何在 程序 中 使 用 哨兵 来 找 出 数组 中 的 最 大 元 素 ? 

9. 因 为 顺序 搜索 比 二 分 搜索 简单 ， 所 以 对 于 较 小 的 表 来 说 通常 顺序 
搜索 更 有 效 。 男 外 ， 二 分 搜索 的 对 数 次 比较 说 明 ， 对 于 较 大 的 表 来 说 
它 要 比 顺 序 搜索 的 线性 时 间 快 一 些 。 其 平衡 点 取决 于 每 种 程序 的 调 优 
程度 。 你 能 找到 的 最 高 和 最 低 平 衡 点 分 别 是 多 少 ? 当 两 种 程序 的 调 优 
程度 相同 时 ， 在 你 机 器 上 的 平衡 点 是 多 少 ? 

10.D.B.Lomet 发 现 ， 散 列 法 解决 1000 个 整数 的 搜索 问题 时 可 能 比 
调 优 过 的 二 分 搜索 效率 更 高 。 请 实现 一 个 快速 的 散 列 程序 ， 并 将 它 和 
调 优 过 的 二 分 搜索 进行 比较 。 从 速度 和 空间 方面 比较 ， 结 论 如 何 ? 

11.20 世 纪 60 年 代 早 期 ，Vic Berecz 发 现 Sikorsky 飞 机 的 仿真 程序 的 
大 部 分 运行 时 间 都 消耗 在 计算 三 角 函 数 上 上 了。 进一步 的 观察 表明 ， 只 
有 在 角度 为 5 度 的 整数 倍 时 才 计 算 这 些 函 数 。 他 应 该 如 何 减少 运行 时 
间 ? 

12. 人 们 在 调 优 程序 时 有 时 会 从 数学 的 角度 考虑 而 不 是 从 代码 的 角 
度 考 虑 。 为 了 计算 下 面 的 多 项 式 : 

y=a, 二 于 x +Lt+ax+anin',1, 

如 下 的 代码 使 用 了 2n 次 乘法 。 请 给 出 一 个 更 快 的 函数 。 
y=a[0]xi =1 
fori=[1,n] 


xi= x * xi 


y=y+alil*xi 


9.6 深入 阅读 


3.8 T fe 2l] T Steve McConnell 的 《代码 大 全 》 一 书 。 其 中 第 28 划 讲 
述 了 “代码 调 优 策略 ”>， 吞 统 综 述 了 性 能 问题 ， 详 细 描述 了 代码 调 优 的 
方法 ;第 29 章 对 代码 调 优 的 法 则 做 了 很 好 的 整理 。 

本 书 的 附录 D 提 供 了 相关 的 代码 调 优 法 则 ， 并 描述 了 它们 在 本 书 中 
的 应 用 。 


10 省 空间 


你 可 能 会 跟 我 认识 的 几 个 人 一 样 ， 读 到 这 个 题目 的 第 一 印象 是 : 
“多 奇怪 啊 ! ”在 过 去 艰苦 的 计算 年 代 中 ， 程 序 员 受 限于 小 容量 的 计算 
机 ， 常 常 需要 节省 空间 ; 但 那样 的 年 代 已 经 一 去 不 复 运 了 。 新 的 理念 
是 : “这 里 1GB， 那 里 1 GB， 不 够 就 再 扩 内 存 。” 这 种 观点 确实 有 些 道 
理 一 一 许多 程序 员 都 使 用 大 容量 的 计算 机 ， 很 少 需要 考虑 从 程序 中 节 
省 空间 。 

但 时 常 努力 地 考虑 一 下 空间 紧 凌 的 程序 是 很 有 利 的 。 有 时 候 这 种 
思考 会 带 来 新 的 启示 ， 使 程序 变 得 更 加 人 简单。 节省 空间 的 同时 ， 我 们 
通常 会 在 运行 时 间 上 得 到 想 要 的 副作用 : 程序 变 小 后 加 载 更 快 ， 也 更 
容易 填 入 高 速 缓存 中 ， 此 外 ， 需 要 操作 的 数据 变 少 通常 也 意味 着 操作 
时 间 会 减少 。 通 过 网 络 传送 数据 时 所 需要 的 时 间 通 常 直接 与 数据 的 规 
模 成 正比 。 即 便 对 于 价格 低廉 的 内 存 来 说 ， 空 间 也 可 能 很 关键 。 那 些 
小 的 机 器 (如 玩具 和 家 电 中 的 那些 ) 仍然 只 有 非常 小 的 内 存 。 当 使 用 
巨型 机 来 解决 巨大 的 问题 时 ， 我 们 依然 需要 小 心地 使 用 内 存 。 

对 其 重要 性 有 了 认识 之 后 ， 我 们 来 看 看 市 省 空间 的 一 些 重要 方 


10.1 关键 在 于 简单 


简单 性 可 以 衍生 出 功能 性 、 健 壮 性 以 及 速度 和 空间 。Dennis 
Ritchie 和 Ken Thompson 最 初 在 具有 8 192 个 18 位 字 的 机 器 上 开发 出 了 
Unix 探 作 系 统 。 他 们 在 关于 该 系统 的 论文 中 说 到 “在 系统 及 其 软件 方 
面 ， 总 是 存在 着 相当 严重 的 空间 约束 。 如 果 同 时 对 合理 的 效率 和 强大 
的 能 力 提 出 要 求 ， 那 么 空间 约束 不 仅 具 有 经 济 上 的 意义 ， 还 会 使 设计 
LHe Eo” 

20 世 纪 50 年 代 中 期 ， 当 Fred Brooks 为 一 家 全 国 性 的 公司 编写 计算 
薪水 的 程序 时 ， 他 发 现 了 简化 的 威力 。 该 程序 的 瓶 代 出 在 肯塔基 州 收 
入 所 得 税 的 表示 上 上。 税收 在 该 州 的 法 律 条 文中 使 用 一 个 二 维 表 表示 ， 
一 维 是 收入 ， 另 一 维 是 免税 额 。 显 式 地 存储 该 表 需 要 几 于 个 字 的 内 
存 ， 比 机 妖 的 容量 

Brooks 所 壬 斌 的 第 一 个 方法 是 笑 试 找到 一 个 匹配 整个 税 表 的 数学 
函数 。 但 是 ， 税 表 参 差 不 齐 ， 无 法 用 简单 时 国 数 近 似 。 在 了 解 到 这 个 
表 是 由 不 热 囊 数 学 函数 的 立法 者 创建 的 之 后 ，Brooks 查 阅 了 肯塔基 州 
立法 机 构 的 会 议 纪要 ， 试 图 了 解 这 个 奇特 的 表 的 来 源 。 他 发 现 肯塔基 
州 的 州 税 是 扣除 联邦 税 之 后 剩余 收入 的 简单 画 数 。 因 此 他 的 程序 从 现 
有 的 表 中 计算 出 联邦 税 ， 然 后 使 用 扣 税 后 的 剩余 收入 和 仅 占 用 几 十 个 
字 内 存 的 表 来 确定 肯塔基 州 的 州 税 。 

通过 研究 问题 产生 的 背景 ，Brooks 用 一 个 简单 一 些 的 问题 替换 了 
原始 问题 。 原 始 问题 似乎 需要 数 千 个 字 的 数据 空间 ， 但 修改 过 的 问题 
却 只 需要 微不足道 的 内 存 就 可 以 解决 。 

简单 性 还 可 以 减少 代码 的 长 度 。 第 3 草 摘 述 了 几 个 大 型 程序 ， 使 用 
合适 的 数据 结构 可 以 将 其 蔡 换 成 较 小 的 程序 。 在 那些 情况 下 ， 从 更 简 
单 的 视角 去 分 析 程 序 ， 可 以 使 源 代码 的 长 度 从 几 千 行 降低 到 几 百 行 ， 
或 许 还 能 同时 将 目标 代码 的 规模 减少 一 个 数量 级 。 


10.2 示例 问题 


20 世 纪 80 年 代 早 期 ， 我 查询 过 一 个 在 地 理 数据 库 中 存储 邻居 的 系 
统 。 一 共有 两 千 个 邻居 ， 编 号 范围 为 0~1 999， 每 个 邻居 在 地 图 中 用 一 
个 点 来 描述 。 该 系统 允许 用 户 通过 触摸 输入 板 的 方式 访问 其 中 的 任意 
一 个 点 。 程 序 将 选 定 的 物理 位 置 转换 为 0~199 范 围 内 的 一 对 整数 x 和 y 
(输入 板 大 约 四 英尺 见方 ， 该 程序 的 分 辩 率 为 4 英寸 ， 然 后 使 用 
(xy) 对 指出 用 户 选中 了 2 000 个 点 中 的 哪 一 个 点 (如 果 有 的 话 ) 。 因 为 
在 同一 位 置 (cy) 不 可 能 存在 两 个 点 ， 所 以 程序 员 仅 需 要 考虑 用 200x200 
的 点 标识 符 数组 表示 地 图 的 模块 (点 标识 符 是 0~1 999 的 整数 ， 如 果 访 
位 置 没有 点 ， 点 标识 符 置 为 -1) 。 该 数组 的 左下 角 大 致 如 下 所 示 ， 空 的 
方 格 表示 该 位 置 没有 点 。 在 相应 的 地 图 上 ， 点 17 位 于 (0,2)， 点 538 位 于 
(0,5)， 第 一 列 中 其 他 4 个 可 见 的 位 置 为 空 


该 数组 很 容易 实现 ， 也 能 实现 快速 的 访问 。 程 序 员 可 以 选择 使 用 
16 位 或 32 位 来 实现 每 个 整数 。 如 果 选 择 32 位 整数 的 话 ，200x200=40 000 
个 元 素 需 要 160 KB 的 空间 ， 因 此 程序 员 选 择 了 较 短 的 16 位 表示 法 。 从 
而 数组 占用 80 KB ， 或 者 说 512 KB 内 存 空间 的 六 分 之 一 。 在 系统 生命 期 
的 早期 阶段 那 是 没有 什么 问题 的 。 但 是 随 着 系统 的 增长 ， 空 间 束 不 够 


用 了 “。 程 序 员 问 我 如 何 减 少 花 在 这 个 结构 上 的 存储 空间 。 你 会 给 他 怎 
样 的 建议 呢 ? 

这 是 一 个 使 用 稀 疏 数据 结构 的 绝 好 机 会 。 这 个 例子 很 老 ， 但 我 最 
近 却 遇 到 了 一 个 相同 的 例子 : 在 一 台 具 有 上 百 兆 字 节 内 存 的 计算 机 上 
表示 一 个 具有 100 万 个 活跃 项 的 10 000x10 000 的 矩阵 。 

稀 琉 矩阵 的 一 种 浅显 的 表示 法 就 是 使 用 数组 表示 所 有 的 列 ， 同 时 
使 用 链表 来 表示 给 定 列 中 的 活跃 元 素 。 为 了 使 版 面 更 美观 ， 下 图 顺 时 
针 旋 转 了 90*?: 


pointnum 


of EA 


此 图 显示 了 第 一 列 中 的 三 个 点 ， RIEF (0,2), 5386F (0,5), 
点 1053 位 于 (0,126)。 第 二 列 有 两 个 挟 ， 第 三 列 没有 点 。 我 们 使 用 如 下 
的 代码 搜索 点 人 j): 

for (p = colhead[i]; p != NULL; p = p->next) if p->row == j 

return p->pointnum 

return -1 

在 最 坏 情况 下 得 找 肝 一 数组 元 素 要 访问 200 个 结 点 ， 但 平均 只 要 访 
问 大 约 10 个 结 点 。 

这 个 结构 使 用 了 一 个 具有 200 个 指针 以 及 2 000 条 记录 的 数组 ， 每 条 
记录 都 有 一 个 整数 和 两 个 指针 。 附 录 C 中 的 空间 开销 模型 告诉 我 们 ， 这 
些 指针 将 占用 800 个 字 证 。 如 时 我 们 为 这 些 记 录 分 配 一 个 2 000 元 的 数 
组 ， 那 么 每 条 记录 将 占用 12 个 字 节 ， 总 计 和 需要 24 800 个 字 节 。 (不 过 ， 


如 果 我 们 使 用 该 附录 中 所 描述 的 默认 malloc， 那 么 每 条 记录 将 消耗 48 个 
字 节 ， 从 而 整个 结构 占用 的 空间 将 从 最 初 的 80 KB 增加 到 96.8 KB。) 

程序 员 需 要 在 一 个 不 支持 指针 和 结构 的 Fortran 版 本 中 实现 该 结 
构 。 因 此 ， 我 们 使 用 一 个 201 元 的 数组 来 表示 这 些 列 ， 并 用 两 个 2 000 元 
的 并 行 数 组 表示 这 些 点 。 下面 给 出 了 这 三 个 数组 ， 并 用 箭头 表示 出 了 
最 底部 数组 中 的 整数 索引 。 (为 与 本 书 中 的 其 他 数组 保持 一 致 ， 
Fortran 数 组 以 1 为 基数 的 下 标 已 经 改 为 使 用 以 0 为 基数 了 。) 
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第 i 列 中 的 点 由 数组 row 和 pointnum 中 位 于 firstincol[i] 和 
firstincol[i+1]-1 之 间 的 元 素 表 示 ; 虽然 一 共 只 有 200 个 列 ， 我 们 仍 定 义 
了 firstincol[200] 以 满足 上 述 条 件 。 下 面 的 伪 代 码 用 于 确定 位 置 G) 处 的 
点 : 


for k = [firstincol[i],firstincol[i+1]) 
if row[k] == j 
return pointnum[k] 

return -1 

这 个 版 本 使 用 了 两 个 2 000 元 的 数组 和 一 个 201 元 的 数组 。 程 序 员 使 
用 16 位 整数 〈 总 计 8 402 字 节 ) 谁 确 地 实现 了 这 个 结构 。 它 要 比 使 用 完 
整 的 矩阵 稍微 慢 些 (平均 来 说 大 约 需 要 访问 结 点 10 次 ) 。 即 便 如 此 ， 
该 程序 依然 可 以 很 好 地 满足 用 户 的 需求 。 由 于 系统 具有 良好 的 模块 结 
构 ， 通 过 更 改 一 些 芳 数 ， 该 方法 几 小 时 之 后 就 成 功 合并 到 了 系统 


我 们 观察 到 运行 时 间 没有 明显 变化 ， 同 时 节省 了 非常 宝贵 的 70 KBE 
间 。 

该 结构 仍然 很 浪费 空间 ， 我 们 可 以 进一步 节省 空间 。 因 为 row 数 组 
的 元 素 全 部 都 小 于 200， 所 以 其 中 的 每 个 元 素 都 可 存储 在 一 个 单字 节 无 
符号 char 中 ， 这 使 得 空间 压缩 到 了 6 400 个 字 节 。 如 果 点 本 身 已 经 存储 
了 行 信息 ， 我 们 甚至 可 以 完全 删除 row 数 组 : 


for k = [firstincol[i],firstincol[i+1]) 


if point[pointnum[k]].row == j 
return pointnum[k] 
return -1 
这 使 得 空间 压缩 为 4 400 个 字 节 。 
在 真实 系统 中 ， 快 速 的 查找 时 间 非 党 关键 ， 一 方面 是 为 了 满足 用 
户 交 互 的 需求 ， 另 一 方面 是 因为 其 他 函数 需要 通过 同一 个 界面 来 查找 
点 。 如 有 果 运 行 时 间 不 重要 ， 并 且 这 些 点 具有 row 和 col 字 段 ， 那 么 我 们 可 
以 通过 顺序 搜索 数组 中 的 点 ， 将 最 终 的 存储 空间 减少 为 0 个 字 节 。 即 使 
这 些 点 没有 那 两 个 字段 ， 该 结构 的 空间 也 可 以 通过 “关键 字 索引 ?压缩 
到 4 000 个 字 节 : 我 们 扫描 一 个 数组 ， 数 组 中 的 第 i 个 元 素 包 含有 两 个 单 
字 节 的 字段 ， 用 于 提供 点 i 的 row 和 col 值 。 
此 问题 举例 说 明了 数据 结构 方面 的 几 个 通用 问题 。 该 问题 很 经 
H. FRANZEN 〈 所 谓 稀 芷 数组 是 指 其 中 大 多 数 项 都 具有 同一 值 
(通常 为 0) 的 数组 ) 。 问 题 的 解决 方案 在 概念 上 很 简单 ， 实 现 起 来 也 
很 容易 。 我 们 使 用 了 许多 市 省 空间 的 方法 。 我 们 不 需要 lastincol 数 组 和 
firstincol 配 对 ， 而 是 利用 下 面 的 事实 : 此 列 中 的 最 后 一 个 点 刚好 在 下 一 
列 的 第 一 个 点 之 前 ， 中 间 没 有 其 他 点 。 这 是 一 个 重 靳 计算 而 非 存 储 的 
普通 例子 。 类 似 地 ， 也 不 需要 和 row 配 对 的 col 数 组 ， 因 为 我 们 只 在 
firstincol 数 组 中 访问 row， 所 以 我 们 总 是 知道 当前 列 。 尽 管 row 一 开始 是 


32 位 ， 但 是 我 们 不 断 地 压缩 其 表示 ， 先 减少 为 16 位 并 最 终 减 少 为 8 位 。 
我 们 最 初 从 记录 着 手 ， 但 最 终 还 是 转向 了 数组 ， 以 充分 节省 空间 。 


10.3 数据 空间 技术 


尽管 简化 通常 是 解决 问题 的 最 容易 的 方法 ， 但 是 对 某 些 难 一 些 的 
问题 它 惑 无能为力 了 。 在 本 下 中， 我 们 将 研究 各 种 减少 程序 所 需 数 据 
的 存储 空间 的 技术 。 在 下 一 节 中 ， 我 们 将 考虑 减少 执行 期 间 保 存 程序 
时 所 用 的 内 存 。 

不 存储 ， 重 新 计算 。 如 果 我 们 在 需要 某 一 给 定 对 象 的 任何 时 候 ， 
都 对 其 进行 重新 计算 而 不 保存 ， 那 么 保存 该 对 象 所 需 的 空间 就 可 以 急 
剧 地 减少 。 这 跟 取 消 点 阵 并 每 次 重新 执行 顺序 搜索 的 思想 是 完全 一 致 
的 。 质 数 表 可 以 用 一 个 检索 质数 性 的 函数 来 替代 。 此 方法 牺牲 更 多 的 
运行 时 间 来 换取 更 少 的 空间 。 这 种 方法 只 适用 于 需要 “存储 ”的 对 象 可 
以 根据 其 描述 重新 计算 得 到 的 情况 。 

这 一 类 “生成 右 程 序 ? 常 用 于 在 相同 的 随机 输入 上 执行 淹 干 程序 ， 
其 目的 是 比较 程序 的 性 能 或 者 对 正确 性 进行 回归 测试 。 取 决 于 应 用 场 
合 的 不 同 ， 随 机 对 象 可 能 是 具有 随机 生成 的 文本 行 的 文件 ， 也 可 能 是 
具有 随机 产生 的 边缘 的 图 形 。 我 们 不 保存 整个 对 象 ， 只 保存 其 生成 器 
程序 以 及 定义 了 该 特定 对 象 的 随机 种 子 。 只 需 在 访问 它们 时 稍微 多 人 花 
点 时 间 ， 庞 大 的 对 象 就 可 以 用 较 少 的 儿 个 字 节 表示 出 来 。 

PC 软件 的 用 户 从 CD-ROM 或 DVD-ROM 中 安装 软件 时 ， 可 能 会 
对 这 一 类 选择 。“ 典 型 安装 ”可 能 会 在 可 以 快速 读 取 的 系统 硬盘 中 保存 
几 百 兆 字 节 的 数据 ， 而 “最 小 化 安 六 ”将 把 那些 文件 保留 在 慢 一 些 的 设 
备 中 ， 但 是 不 会 占用 磁盘 空间 。 后 一 类 安装 在 每 次 调用 程序 时 ， 会 花 
费 更 多 的 时 间 来 读 取 数 据 ， 从 而 节省 做 醒 空间。 


对 于 许多 路 网络 运 行 的 程序 来 说 ， 在 数据 规模 方面 我 们 最 关心 的 
是 传输 数据 需要 花费 的 时 间 。 有 时 我 们 会 采纳 “保存 、 不 进行 重新 传 
输 ” 的 建议 ， 通 过 本 地 缓存 的 方式 减少 需要 传输 的 数据 量 。 

稀 玻 数据 结构 。10.2 下 曾 介 绍 过 这 些 结构 。 在 3.1 认 中， 我 们 将 一 
个 参差 不 齐 的 三 维 表 保 存在 一 个 二 维 数 组 中 ， 从 而 节省 了 空间 。 如 果 
我 们 使 用 的 关键 字 将 作为 索引 存储 到 表 中 ， 那 么 束 不 需要 存储 关键 字 
本 身 ， 而 只 需要 存储 其 相关 的 属性 ， 例 如 它 被 查看 的 次 数 。 附 孙 A 的 算 
法 分 类 中 给 出 了 关键 字 索 引 技术 的 一 些 应 用 。 在 上 述 稀 跑 矩阵 例子 
中 ， 利 用 了 firstincol 数 组 的 关键 字 索 引 技 术 允 许 我 们 在 没有 col 数 组 的 情 
况 下 进行 索引 。 

使 用 指针 来 共享 大 型 对 象 (如 长 文本 字符 串 ) 可 以 消除 存储 同一 
对 象 的 众多 副本 所 需 的 开销 ， 但 是 程序 员 在 修改 共享 对 象 时 必须 小 心 
谍 慎 地 确保 该 对 象 的 所 有 拥有 者 都 锅 望 修改 。 我 保 上 的 年 鉴 就 使 用 了 
这 种 方法 ， 它 提供 了 从 1821 年 到 2080 年 的 日 历 。 年 鉴 没 有 列 出 260 个 不 
同 的 日 历 ， 而 是 给 出 了 14 个 标准 日 历 (对 于 任意 一 年 而 言 ，1 月 1 日 是 
星期 几 有 7 种 可 能 ， 疼 年 还 是 非 韶 年 有 两 种 可 能 ， 两 数 相 乘 得 到 14) 以 
及 一 个 为 260 年 中 的 每 一 年 提供 日 历 编 号 的 表 。 

一 些 电话 系统 将 语 首 会 话 看 作为 稀 瑰 结构 以 节省 通信 市 蜗 。 当 某 
一 方 同 上 的 音量 下 降 到 临界 水 平时 ， 采 用 简洁 的 表示 法 来 发 送 静 首 ; 
万 省 下 来 的 讲 视 可 以 用 来 传送 其 他 的 会 话 。 

数据 压缩 。 信 息 理 论 告诉 我 们 ， 可 以 通过 压缩 的 方式 对 对 象 进行 
编码 ， 以 减少 存储 空间 。 例 如 ， 在 稀 疏 矩阵 的 例子 中 ， 我 们 将 表示 行 
号 的 空间 从 32 位 压缩 至 16 位 ， 继 而 再 压缩 至 8 位 。 在 个 人 电脑 的 早期 阶 
段 ， 我 编写 的 一 个 程序 在 读 写 较 长 的 十 进 制 数字 串 时 需要 花费 很 多 的 
时 间 。 我 利用 整数 c=10xat b 对 其 进行 了 修改 ， 将 两 个 十 进 制 数字 a 和 
pb 编码 在 一 个 字 节 《而 不 是 直观 上 的 两 个 字 节 ) 中 。 该 信息 可 以 通过 以 
下 两 条 语句 进行 解码 : 


a=c / 10 

b=c% 10 

这 个 简单 的 方案 将 输入 输出 时 间 减 少 了 一 半 ， 同 时 也 将 数值 数据 
文件 压缩 到 了 一 张 软 盘 而 不 是 两 张 软盘 中 。 这 一 类 编码 可 以 减少 存储 
单个 记录 所 需要 的 空间 ， 但 是 那些 小 的 记录 在 编码 和 解码 时 可 能 要 花 
费 更 多 的 时 间 〈 见 习题 6) 。 

言 息 理论 还 指出 ， 我 们 可 以 压缩 通过 某 一 通道 〈 比 如 磁盘 文件 或 
网 络 ) 发 送 的 记录 流 。 可 以 以 16 位 的 精度 和 44 100Hz 的 采样 频率 来 记 
录 两 个 通道 (立体声) ， 从 而 实现 CD 质量 的 录音 。 使 用 这 种 表示 方法 
上 时， 一 秒 的 声音 需要 176 400 个 字 节 。MP3 标 准 能 够 将 常见 的 声音 文件 

(尤其 是 音乐 ) 压缩 到 比 这 个 值 小 很 多 的 大 小 。 习 题 10.10 要 求 你 度量 
一 下 表示 文本 、 图 像 、 声 音 等 内 容 的 几 种 常见 格式 的 有 效 性 。 有 些 程 
序 员 为 他 们 的 软件 构建 了 专用 的 压缩 算法 : 13.8 节 概述 了 如 何 将 一 个 有 具 
有 75 000 个 英语 单词 的 文件 压缩 到 52 KB e 

分 配 策略 。 有 时 空间 的 使 用 方式 比 使 用 量 更 重要 。 人 例如， 假设 你 
的 程序 使 用 了 大 小 相同 的 三 个 不 同类 型 的 记录 x、y 和 z。 在 某 些 语言 
中 ， 你 的 第 一 反应 可 能 是 为 每 种 类 型 声明 10 000 个 对 象 。 但 是 如 果 你 使 
用 了 10 001 个 x 对 象 ， 而 没有 使 用 y 和 z， 结 果 会 如 何 呢 ? 虽然 其 他 20 000 
个 对 象 完 全 未 使 用 ， 程 序 在 用 到 第 10 001 个 记录 之 后 还 是 会 溢出 。 动 态 
分 配 通 过 在 需要 时 才 对 记录 进行 分 配 的 方式 ， 避 人 免 了 这 一 类 明显 的 浪 
Re o 

动态 分 配 是 说 ， 只 有 在 需要 的 时 候 才 进行 分 配 ; 可 变 长 记录 的 策 
略 是 说 ， 当 确实 需要 请 求 某 样 东 西 时 ， 我 们 应 该 根据 需要 量 来 请 求 。 
在 以 前 80 列 记 录 的 穿孔 卡片 时 代 ， 磁 盘 上 有 一 半 以 上 的 字 节 空 着 是 很 
常见 的 。 可 变 长 文件 使 用 换行 符 来 指示 一 行 的 结束 ， 因 此 加 们 了 这 一 
类 磁盘 的 存储 量 。 我 曾经 使 用 可 变 长 记录 使 一 个 具有 输入 /输出 瓶 有 颈 的 


程序 的 运行 速度 变 为 原来 的 三 倍 : 最 大 记录 长 度 是 250， 但 平均 只 使 用 
大 约 80 个 字 节 。 

垃圾 回收 。 对 废弃 的 存储 空间 进行 回收 再 利用 ， 从 而 那些 不 用 的 
位 就 可 以 重新 使 用 了 。14.4 节 中 的 堆 排 序 算法 在 两 个 逻辑 数据 结构 上 使 
用 了 共享 空间 技术 ， 它 们 在 不 同 的 时 间 使 用 ， 但 存储 在 相同 的 物理 位 
= ike 

20 世 纪 70 年 代 早 期 ，Brian Kernighan 编 写 了 一 个 旅行 商 程序 ， 给 出 
了 另 一 种 共享 存储 空间 的 方法 : 用 两 个 150x150 的 矩阵 (分 别称 为 a 和 
b) 来 表示 点 与 点 之 间 的 距离 ， 从 而 Kernighan 知 道 它 们 的 对 角 线 上 都 是 
0 值 (a[li,i]=0) ,并且 和 矩阵 是 对 称 的 (ali,j]=alj,i]) 。 因 此 他 让 两 个 三 角 
矩阵 共享 某 一 方 阵 c 的 空间 ， 下 图 是 其 中 的 一 个 角落 : 


这 样 一 来 ，Kernighan 可 以 通过 下 面 的 代码 引用 ali,j]: 

c[max(i,j),min(i,j) | 

类 似 地 可 以 求 出 b,， 但 是 应 该 将 min 和 max 进 行 对 调 。 从 那 时 起 ， 该 
表示 法 就 已 经 在 各 种 不 同 的 程序 中 得 到 使 用 了 。 该 技术 使 Kernighan 的 
程序 在 一 定 程度 上 编写 起 来 更 困难 ， 运 行 也 稍微 慢 些 ， 但 是 在 一 台 具 
有 30 000 个 字 的 机 器 上 ， 将 两 个 22 500 个 字 的 矩阵 减少 成 一 个 是 非常 有 


意义 的 。 如 果 和 矩阵 是 30 000x30 000 的 话 ， 那 么 在 今天 具有 1 GB 内 存 的 
机 器 上 ， 同 样 的 改动 可 以 取得 相同 的 效果 。 

在 现代 计算 系统 中 ， 使 用 对 高 速 缓存 敏感 的 内 存 布局 非常 重要 。 
虽然 我 研究 这 个 理论 已 有 许多 年 了 ， 但 是 当 我 第 一 次 使 用 某 个 多 原 CD 
软件 时 ， 我 仍然 表现 出 了 发 自 内 心 的 赞赏 。 全 国电 话 号 码 敌 和 全 国 地 
图 使 用 起 来 非常 方便 ， 我 很 少 需要 替换 CD， 除 非 我 已 从 国家 的 一 部 分 
浏览 到 另 一 部 分 了 。 但 是 当 我 第 一 次 使 用 两 张 盘 的 百科 全 书 时 ， 我 发 
现 交 换 CD 太 频繁 了 ， 于 是 转 而 使 用 老 版 本 的 只 有 一 张 CD 的 百科 全 书 ; 
内 存 布 局 对 我 的 访问 模式 不 敏感 。 管 案 2.4 图 示 了 三 个 具有 截然 不 同 的 
内 存 访 问 模式 的 算法 的 性 能 。 我 们 将 在 13.2 广 看 到 一 个 应 用 ， 其 中 即使 
数组 接触 的 数据 比 链表 要 多 ， 它 们 也 会 比 链表 更 快 一 些 ， 这 是 因为 它 
们 的 顺序 内 存 访问 和 系统 的 高 速 缓存 之 间 交 互 作用 时 效率 很 高 。 


10.4 代码 空间 技术 


有 时 候 空 间 的 瓶颈 不 在 于 数据 ， 而 在 于 程序 本 身 的 规模 。 在 过 去 
的 艰 匣 年代， 我 见 到 的 图 形 程序 通 篇 都 是 类 似 下 面 的 代码 : 

for i = [17,43] set(i,68) 

for i = [18,42] set(i,69) 

for j = [81,91] set(30,j) 

for j = [82,92] set(31,j) 

H Fse j mou” eae il (i) Sb ETR ° EAE SAE, 
例如 用 于 绘制 水 平 线 的 hor 函数 和 绘制 牌 直 线 的 ver EAL, WAT DAE AR 
如 下 所 示 的 代码 奉 换 上 面 的 代码 : 

hor(17,43,68) 

hor(18,42,69) 

vert(81,91,30) 


vert(82,92,31) 

ERREX BA “SPE PPR SR REA RDF 
面 的 数组 中 读 取 命令 : 

h 17 43 68 

h 18 42 69 

v 8191 30 

v 82 92 31 

如 果 上 面 的 代码 仍然 占用 太 多 的 空间 ， 那 么 可 以 为 命令 (`v 
两 个 其 他 命令 ) 分 配 两 个 位 ， 并 为 后 面 的 三 个 数 (这 些 数 是 范围 
0~1023 内 的 整数 ) 各 分 配 10 个 位 。 于 是 ， 上 面 的 每 一 行 都 可 以 用 一 个 
32 位 的 字 来 表示 (当然 ， 这 种 转换 应 该 由 程序 来 进行 )。 这 种 假设 的 
情况 揭示 了 用 于 节省 代码 空间 的 几 种 通用 技术 。 

函数 定义 。 通 过 用 函数 蔡 换 代码 中 的 常见 模式 可 以 简化 上 述 程 
序 ， 相 应 地 也 就 减少 了 它 的 空间 需求 ， 并 增加 了 其 清晰 性 。 这 是 一 个 
“ 自 底 向 上 ”设计 的 普通 例子 。 尽 管 我 们 不 能 忽视 自 顶 向 下 的 方法 ， 但 
是 由 良好 的 原始 对 象 、 组 件 和 画 数 所 给 出 的 均一 的 视图 可 以 使 系统 维 
护 起 来 更 加 简单 ， 同 时 也 节省 了 空间 。 

微软 删除 了 很 少 使 用 的 函数 ， 将 它 的 整个 Windows 系统 压缩 为 更 
加 紧凑 的 Windows CE， 使 其 能 在 具有 更 小 内 存 的 “移动 计算 平台 ”上 运 
行 。 更 小 的 用 户 界面 (UI) 在 窗 屏 幕 的 小 型 机 器 (范围 从 艇 入 式 系统 
到 掌上 电脑 ) 上 运行 得 很 好 ， 熟 悉 的 界面 对 用 户 来 说 非常 方便 。 更 小 
的 应 用 编程 接口 (API) 使 得 系统 对 于 Windows API 程 序 员 来 说 很 熟悉 

(并 且 对 于 许多 程序 来 说 ， 即 使 不 兼容 ， 也 非常 接近 ) 。 

解释 程序 。 在 图 形 程序 中 ， 我 们 用 4 字 节 的 解释 程序 命令 替换 了 一 
长 行 的 程序 文本 。3.2 节 描 述 了 一 个 用 于 格式 信 男 编程 的 解释 程序 ， 尽 
管 它 的 主要 目的 是 使 编程 和 维护 更 加 简单， 但 是 它 同 时 也 减少 了 程序 
的 空间 。 


Kernighan 和 Pike 在 他 们 Practice of Programming 一 书 〈 本 书 5.9 节 介 
绍 过 ) 的 9.4 市 介绍 了 “解释 程序 、 编 译 器 和 虚拟 机 ”。 他 们 列举 了 许多 
例子 来 文 撑 他 们 的 结论 : “虚拟 机 是 以 前 的 一 个 有 趣 想法 ， 节 近 借 助 于 
Java 和 和 Java 庶 拟 机 (Java Virtual Machine, JVM) 又 重新 流行 起 来 了 ;， 对 
于 高 级 语言 编写 的 程序 来 说 ， 它 们 很 容易 提供 可 移植 的 、 高 效 的 表 
Ta 


翻译 成 机 器 语言 。 在 节省 空间 方面 ， 大 多 数 程序 员 都 较 少 控制 的 
是 将 源 语 言 转换 成 机 器 语言 。 对 编译 器 进行 一 些微 小 更 改 可 以 将 Unix 
系统 早期 版 本 的 代码 空间 减少 5 个 百分点 。 作 为 最 后 的 手段 ， 程 序 员 可 
能 会 考虑 到 将 大 型 系统 中 的 关键 部 分 用 汇编 语言 进行 手工 编码 。 这 个 
高 开销 、 易 出 错 的 过 程 仅 能 带 来 一 点 点 好 处 ; 不 过 ， 该 方法 还 是 常常 
用 于 一 些 内 存 宝贵 的 系统 ， 比 如 数字 信号 处 理 器 。 

Apple Macintosh 于 1984 年 诞生 ， 当 时 是 一 于 令 人 称奇 的 机 器 。 这 
款 小 小 的 计算 机 (128 KB RAM) 具有 令 人 震惊 的 用 户 界面 和 功能 强大 
的 软件 集 。 设 计 小 组 预期 将 制造 好 几 百 万 台 这 样 的 机 人 右 ， 并 且 只 提供 
64 KB 的 ROM。 通 过 席 慎 的 函数 定义 (包括 汉化 运算 符 、 归 并 函数 和 
删除 功能 特性 ) 并 使 用 汇编 语言 手工 编码 整个 ROM 程 序 ， 该 小 组 将 令 
人 难以 置信 的 众多 系统 功能 集成 到 了 一 个 极 微小 的 ROM 上 。 他 们 估计 
那些 经 过 极度 调 优 的 代码 (具有 谨慎 的 寄存 器 分 配 和 指令 选择 ) 的 规 
模 只 有 从 高 级 语言 编译 过 来 的 等 价 代 码 的 一 半 (尽管 那 时 编译 器 已 经 
有 了 很 大 的 改进 ) 。 紧 竣 的 汇编 代码 运行 起 来 也 非常 快 。 


10.5 原理 


空间 开销 。 如 果 程序 使 用 的 内 存 增加 10%， 结 果 会 怎样 呢 ? 在 某 些 
系统 中 ， 这 一 类 增加 不 会 产生 什么 开销 ;先前 浪费 的 位 现在 义 可 以 使 
用 了 。 在 一 些 非 常 小 的 系统 中 ， 程 序 可 能 根本 就 不 能 运行 了 : 内 存 海 


出 。 如 果 数 据 正在 通过 网 络 进行 传输 ， 那 么 传送 所 需 的 时 间 可 能 会 增 
加 10%6。 在 一 些 缓存 和 分 页 系统 中 ， 运 行 时 间 可 能 会 急剧 增加 ， 因 为 先 
前 与 CPU 较 接近 的 数据 现在 已 经 逆行 到 二 级 高 速 缓存 、RAM 或 磁盘 中 
了 ( 见 13.2 节 和 答案 2.4) 。 在 着 手 降低 空间 开销 之 前 ， 应 该 首先 了 解 
空间 开销 。 

空间 的 “热点 ”。9.4 节 描述 了 程序 的 运行 时 间 通 常 如 何 聚 集 在 某 些 
热点 上 : 少 部 分 的 代码 却 经 常 要 占用 大 部 分 的 运行 时 间 。 对 于 代码 所 
需 的 内 存 来 说 则 相反 ， 无 论 一 条 指令 执行 了 10 亿 次 还 是 根本 就 没有 执 
行 ， 它 需要 的 存储 空间 都 一 样 (除非 大 部 分 的 代码 从 来 就 没有 交换 到 
内 存 或 小 的 高 速 缓 在 中 ) 。 事 实 上 数据 也 可 以 具有 热点 ， 少 数 常见 类 
型 的 记录 经 常 要 占用 大 部 分 的 内 存 。 例 如 ， 在 稀疏 矩阵 的 例子 中 ， 在 
512 KB 内 存 的 机 器 中 ， 单 个 数据 结构 就 要 占用 15% 的 内 存 。 如 果 使 用 
一 个 只 有 1/10 大 小 的 结构 车 换 它 ， 会 对 系统 产生 重大 的 影响 ， 而 如 果 
把 一 个 只 有 1 KB 的 结构 缩小 为 原来 的 1%， 所 产生 的 影响 基本 可 以 忽略 
不 计 。 

空间 度量 。 大 多 数 系统 都 提供 了 性 能 监视 器 ， 它 允许 程序 员 观察 
程序 运行 时 内 存 的 使 用 情况 。 附 录 C 描 述 了 一 个 用 C++ 语 言 编写 的 空间 
开销 模型 ， 该 模型 在 与 性 能 监视 器 结合 使 用 时 尤其 有 帮助 。 各 种 专用 
工具 有 时 也 会 有 所 帮助 。 当 程序 开始 变 得 不 可 思议 的 庞大 时 ，Doug 
Mcallroy 将 连接 程序 (linker) 的 输出 和 源 文件 合并 显示 ， 以 确定 每 一 行 
耗费 了 多 少 个 字 节 (有 些 宏 会 扩展 成 几 百 行 的 代码 ) ， 这 样 他 就 可 以 
裁减 目标 代码 了 。 有 一 次 我 通过 观看 由 内 存 分 配 程序 返回 的 内 存 块 电 
影 (“算法 动画 ") ， 发 现 了 程序 中 的 内 存 泄漏 。 

折 中 。 有 时 程序 员 必须 竹 牲 程序 的 性 能 、 功 能 或 可 维护 性 以 获得 
内 存 ， 这 样 的 工程 决策 应 该 在 所 有 可 选 办 法 都 研究 过 之 后 才能 做 出 。 
本 章 中 的 几 个 例子 介绍 了 减少 空间 是 如 何 对 其 他 因素 产生 积极 影响 
的 。 在 1.4 节 中 ， 位 图 数据 结构 允许 一 组 记录 保存 在 内 存 中 而 不 是 磁盘 


中 ， 从 而 将 运行 时 间 从 几 分 钟 减少 到 几 秒 钟 ， 代 码 也 从 几 百 行 减少 为 
儿 十 行 。 出 现 这 种 情况 的 唯一 原因 是 原先 的 解决 方案 远 非 最 佳 。 但 是 
我 们 这 些 技术 还 不 够 精湛 的 程序 员 常 常会 发 现 目 己 的 代码 就 处 于 这 种 
状态 。 在 放弃 任何 希望 得 到 的 特性 之 前 ， 我 们 应 该 努力 寻找 能 够 改善 
解决 方案 各 方面 性 能 的 方法 。 

与 环境 协作 。 编 程 环境 对 于 程序 的 空间 效率 具有 重要 影响 。 重 要 
的 环境 因素 包括 编译 侨 和 运行 时 系统 所 使 用 的 表示 方式 、 内 存 分 配 策 
略 以 及 分 页 策略 。 关 似 附 孙 C 的 空间 开销 模型 有 助 于 确保 我 们 不 会 癌 相 
反 的 方向 努力 。 

使 用 适合 任务 的 正确 工具 。 我 们 已 经 学 习 过 四 种 广 省 数据 空间 的 
技术 (重新 计算 、 稀 璃 结构 、 信 息 理 论 以 及 分 配 策略 )y 、 三 种 节省 代 
码 空 间 的 技术 〈 函 数 定 义 、 解 释 程序 以 及 翻译 )》 和 一 条 最 重要 的 原则 

(简单 性 ) 。 当 内 存 很 关键 时 ， 请 务必 考虑 所 有 可 能 的 选项 。 


10.6 习题 


1.20 世 纪 70 年 代 末 期 ，Stuart Feldmen [14] 构建 了 一 个 Fortran 77 编 
Mar, EMRE AG4 KB 的 代码 空间 。 为 了 蔬 省 空间 ， 他 将 一 些 天 键 
记录 中 的 整数 压缩 存储 到 4 位 的 字段 中 。 在 去 除 该 处 理 并 将 这 些 字 段 保 
存 到 8 位 中 时 ， 他 发 现 尽管 数据 空间 增加 了 数 百 个 字 节 ， 但 是 整个 程 
序 的 大 小 却 下 降 了 好 几 千 个 字 节 。 为 什么 ? 

2. 如 何 编写 程序 来 构建 10.2 节 中 所 描述 的 稀 臣 矩阵 数据 结构 ? 你 能 
够 为 该 任务 找 出 简单 但 空间 效率 很 高 的 其 他 数据 结构 吗 ? 

3. 你 的 系统 总 共有 多 大 的 磁 僵 空间 ? 当前 可 用 的 有 多 少 ? RAM 有 
多 大 ? RAM 中 一 般 有 多 少 是 可 用 的 ? 你 可 以 度量 一 下 系统 中 各 个 高 速 
缓存 的 大 小 吗 ? 


4. 请 研究 一 下 非 计 算 机 应 用 (比如 年 鉴 以 及 其 他 参考 书 ) 中 的 数 
据 ， 说 明 如 何 进行 空间 节省 。 

5. 在 早期 的 编程 生活 中 ，Fred Brooks 还 面临 着 另外 一 个 问题 : 在 小 
型 计算 机 中 表示 一 个 大 型 的 表 (不 在 本 书 10.1 节 的 讨论 范围 内 ) 。 他 无 
法 在 数组 中 存储 整个 表 ， 因 为 那样 的 话 每 一 个 表 项 只 能 分 配 到 很 少 的 
几 个 位 的 空间 (实际 上 ， 每 个 表 项 只 能 使 用 一 个 十 进 制 数 字 一 一 前 面 
已 经 交代 过 这 是 在 早 些 年 的 时 候 ! ) 。 他 采用 的 第 二 种 方法 是 利用 数 
值 分 析 找 出 匹配 该 表 的 函数 。 他 得 到 了 一 个 非常 接近 于 真实 表 的 函数 
(每 一 项 都 和 真实 的 表 项 相差 无 几 ) ， 并 且 该 函数 需要 的 内 存 总 量 也 
可 忽略 不 计 。 但 是 合法 的 约束 意味 着 这 样 的 近似 还 不 够 好 。Brooks 如 
何在 有 限 的 空间 内 获得 所 需要 的 精度 呢 ? 

6. 在 10.3 节 中 对 数据 压缩 的 讨论 兽 提 及 使 用 了 和 % 运 算 解码 10xa 十 b 
的 问题 。 试 探讨 使 用 逻辑 运算 或 查 表 来 替换 那些 运算 时 所 涉及 的 时 间 
和 空间 折 中 。 

7. 在 常见 类 型 的 性 能 监视 工具 中 ， 程 序 计数 器 的 值 是 按 常 规 的 方式 
采样 的 ， 壁 如 9.1 节 中 的 例子 。 请 设计 一 个 存储 这 些 值 的 数据 结构 ， 要 
求 该 结构 的 时 间 和 空间 效率 都 比较 高 并 且 能 够 提供 有 用 的 输出 。 

8. 浅 显 的 数据 表示 方法 为 日 期 (MMDDYYYY) 分 配 了 8 个 字 节 的 
空间 ， 为 社会 保障 号 (DDD-DD-DDDD) 分 配 了 9 个 字 节 的 空间 ， 为 名 
字 分 配 了 25 个 字 节 (其 中 姓 14 个 字 节 、 名 10 个 字 节 、 中 间 名 1 个 字 市 ) 
的 空间 。 如 果 空 间 紧缺 ， 你 该 如 何 减 少 这 些 需求 呢 ? 

9. 将 在 线 贡 语 字 典 压缩 得 尽 可 能 小 。 统 计 空 间 时 ， 请 同时 度量 数据 
文件 以 及 解释 该 数据 的 程序 。 

10. 原 始 声 音 文件 (如 .wav) 可 以 压缩 成 .mp3 文 件 ， 原 始 图 像 文件 
(如 .bmp) 可 以 压缩 成 .gif 或 ,jpg 文件 ， 原 始 视频 文件 (如 .avi) 可 以 压 
缩 成 .mpg 文 件 。 试 针对 这 些 文件 格式 进行 实验 ， 以 评估 其 压缩 效果 。 
这 些 专 用 的 压缩 格式 与 通用 的 方案 (如 gzip) 相 比 效果 如 何 ? 


11. 一 位 读者 发 现 : “对 于 现代 程序 ， 庞 大 的 常 前 不 是 你 所 编写 的 代 
码 ， 而 是 你 所 使 用 的 代码 ”。 请 研究 一 下 你 的 程序 ， 看 看 连接 之 后 程序 
有 多 大 。 如 何 市 省 其 空间 ? 


10.7 深入 阅读 


Fred Brooks 所 闭 的 《人 月 神话 》 一 书 的 20 周 年 纪念 版 于 1995 年 由 
Addison-Wesley 出 版 。 它 重印 了 原 书 中 一 些 令 人 赏心悦目 的 短文 ， 同 时 
也 添加 了 几 篇 新 的 短文 ， 其 中 包括 比较 有 影响 力 的 “没有 银 弹 一 软件 
工程 中 的 根本 和 次 要 问题 ”。 该 书 第 9 章 的 标题 是 “ 削 足 适 履 ”， 它 侧重 
强调 在 大 型 项 目 中 对 至 间 进 行 管理 控制 。 他 提出 了 一 些 重 要 的 问题 ， 
如 规模 预算 、 功 能 说 明 以 及 用 空间 换取 功能 或 时 间 。 

本 书 8.8 节 所 引用 的 图 书 中 ， 许 多 都 接 述 了 以 空间 有 效 性 算法 和 数 
据 结 构 为 基础 的 科学 技术 。 


10.8 巨大 的 节省 (边栏 ) 


在 20 世 纪 80 年 代 早 期 ，Ken Thompson 构 建 了 一 个 两 阶段 的 程序 ， 

用 于 解决 给 定 条 件 下 国际 象棋 的 残局 问题 ， 比 如 一 个 王 和 两 个 象 对 一 
个 王 和 一 个 马 (此 程序 与 Thompson 和 Joe Condon 开 发 的 前 世界 计算 机 
冠军 Belle 截 然 不 同 ) 。 该 程序 的 学 习 阶段 通过 从 所 有 可 能 的 “将 死 ” 状 
态 癌 前 回 济 来 计算 所 有 可 能 的 走 法 的 距离 ， 计 算 机 科学 家 将 这 种 方法 
称 为 动态 规划 ， 而 国际 象棋 专家 则 称 之 为 回 亢 分 析 。 由 此 得 到 的 数据 
库 使 程序 对 于 给 定 的 局 面 无 所 不 晓 。 所 以 在 游戏 阶段 ， 它 对 残局 下 得 
非常 出 色 。 国 际 象棋 专家 用 下 面 的 词汇 来 描绘 它 所 玩 的 游戏 : “复杂 、 
流畅 、 漫 长 且 困 难以 及 “难以 忍受 的 缓慢 和 神秘 ”>， 它 题 黎 了 既定 的 国 
际 象棋 信仰 。 


显 式 地 存储 所 有 可 能 的 棋盘 在 空间 上 的 开销 是 怀 人 的 。 因 此 
Thompson 将 棋盘 的 编码 用 作 关 键 字 ， 对 存储 棋 副 信息 的 磁 玛 文件 进行 
索引 ; 文件 中 的 每 一 条 记录 都 包含 了 12 位 ， 包 括 从 该 位 置 开始 到 将 死 
的 距离 。 因 为 棋盘 上 有 64 个 格子 ， 因 此 五 个 固定 的 棋子 位 置 可 以 编码 
为 0~63 的 5 个 整数 ， 这 些 整 数 给 出 了 每 个 棋子 的 位 置 。 由 此 得 到 的 关键 
字 具 有 30 位 ， 这 就 意味 着 数据 库 中 的 表 有 239 (或 者 说 大 约 10.7 亿 ) 个 
12 位 的 记录 ， 这 已 经 超过 了 当时 可 用 的 磁 副 容量 。 

Thompson 的 关键 发 现在 于 : 下 图 中 关于 任何 虚线 对 称 的 棋 弄 具有 
相同 的 值 ， 没 有 必要 在 数据 库 中 进行 重复 。 


因此 他 的 程序 假设 白 王位 于 十 个 已 编号 方 格 中 的 一 个 ， 对 于 任意 
的 棋盘 ， 至 多 连续 三 次 镜像 就 可 以 摆 放 成 这 种 形式 。 这 一 标准 化 使 得 
磁盘 文件 的 大 小 减 小 到 10x644 或 10 x224 个 12 位 的 记录 。Thompson 进 一 
步 观察 发 现 ， 因为 墨 王 不 能 和 日 王 相 邻 ， 因 此 对 于 两 个 王 来 说 只 有 454 
种 合法 的 棋盘 位 置 ， 其 中 日 王位 于 上 述 已 标记 的 十 个 方 格 中 的 一 个 。 


利用 这 一 事实 ， 他 的 数据 库 缩 小 到 了 454x643 或 大 约 12 100 万 条 12 位 的 
记录 ， 这 样 就 可 以 保存 到 一 张 (专用 的 ) 磁盘 中 了 。 

尽管 Thompson 知道 他 的 程序 只 会 有 一 个 副本 ， 他 还 是 将 文件 压缩 
到 了 一 张 磁盘 上 。Thompson 利 用 数据 结构 的 对 称 性 使 所 需 人 磁盘 空间 减 
少 为 原来 的 八 分 之 一 ， 这 对 整个 系统 的 成 功 而 言 是 很 关键 的 。 节 省 空 
间 的 同时 也 减少 了 程序 的 运行 时 间 : 通过 减少 在 残局 程序 中 需要 分 析 
的 位 置 数 ， 将 学 习 阶 段 的 时 间 从 好 多 个 月 减少 到 了 几 周 的 时 间 。 
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下 面 开始 介绍 有 趣 的 内 容 。 第 一 部 分 和 第 二 部 分 是 打 基础 的 ， 接 
下 来 的 5 章 利 用 前 面 的 知识 来 编写 有 趣 的 程序 。 这 些 问 题 本 身 束 很 重 
要 ， 而 且 它 们 也 集中 体现 了 在 实际 应 用 中 如 何 结合 运用 前 面 各 章 的 方 
法 。 
第 11 章 描述 几 种 通用 的 排序 算法 。 第 12 章 描述 一 个 来 目 实际 应 用 
(生成 随机 整数 样本 ) 的 特定 问题 ， 并 给 出 了 该 问题 的 多 种 解决 方 
案 。 方 案 之 一 是 将 其 视 为 一 个 集合 表示 问题 ， 这 是 第 13 草 讨论 的 内 
容 。 第 14 半 介绍 堆 数 据 结构 ， 并 说 明 如 何 用 堆 得 到 高 效 的 排序 和 优先 
级 队列 算法 。 第 15 章 讨论 与 在 很 长 的 文本 字符 串 中 搜索 单词 或 短语 有 
天 的 几 个 问题 。 
本 部 分 内 容 


第 11 章 排序 
第 12 草 取样 问题 
第 13 章 搜索 
第 14 章 HE 


Po ht 


第 15 章 字符 串 


第 11 章 排序 


如 何 将 一 系列 的 记录 排 成 有 序 的 ? 答案 通常 很 简单 : 使 用 库 排 序 
函数 。 答 案 1.1 使 用 了 这 种 方法 ，2.8 节 的 变 位 词 程序 也 两 次 使 用 了 这 种 
方法 。 不 笠 的 是 ， 这 种 方法 并 非 总 是 有 效 的 : 已 有 的 排序 方法 使 用 起 
来 可 能 比较 太 烦 ， 或 者 速度 太 慢 以 至 于 无 法 解决 特定 问题 (如 1.1 市 所 
示 ) 。 在 这 样 的 情况 下 ， 程 序 员 别 无 选择 ， 只 能 自己 编写 排序 函数 。 


11.1 插入 排序 


大 多 数 纸牌 游戏 玩家 都 采用 插入 排序 来 排列 他 们 手中 的 纸牌 。 他 
们 保持 已 发 到 手中 的 牌 有 序 ， 当 拿 到 一 张 新 牌 时 ， 将 其 插入 到 合适 的 
位 置 。 为 了 将 数组 x[n] 按 升序 排列 ， 我 们 首先 将 第 一 个 元 素 视 为 有 序 子 
数组 x[0..0]， 然 后 插入 x[1],.…,x[n-1]， 如 下 面 的 伪 代 码 所 示 : 

fori= [1,n) 


/* invariant: x[0..i-1] is sorted */ 


/* goal: sift x[i] down to its 
proper place in x[0..i] */ 
下 面 4 行 展示 了 该 算法 在 一 个 四 元 数组 上 的 执行 过 程 。“ ?代表 变量 

i， 它 左边 的 元 素 是 有 序 的 ， 而 它 右边 的 元 素 则 还 是 初始 顺序 。 
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Tit ° REVATRA SB (Bj>0) 且 没 有 到 达 最 终 位 置 ( 即 
该 元 素 小 于 它 的 前 驱 ) ， 循 环 就 交换 该 元 素 和 它 的 前 张 。 完 整 的 程序 
isort1 如 下 所 示 : 

fori= [1,n) 


for (j =i; j > 0 && x[j-1] > x[j]; j--) 
swap(j-1,j) 

当 偶尔 需要 上 自己 写 排序 代码 时 ， 这 是 我 们 考虑 的 第 一 个 函数 ， 只 
有 简单 的 3 行 代码 。 

想 要 调 优 代 码 的 程序 员 可 能 会 觉得 ， 内 循环 的 swap 函 数 调 用 看 起 
来 非常 不 舒服 。 我 们 可 以 通过 把 该 函数 的 函数 体内 联 写 入 内 循环 来 实 
现 加 速 ， 当 然 许多 优化 编译 器 会 帮 我 们 完成 这 一 工作 。 我 们 将 swap 函 
数 蔡 换 为 下 面 的 代码 ， 其 中 变量 t 用 来 交换 x[j] 和 x[j-1] 。 

t=xl;. xjl=s0-;. xpt 

在 我 的 机 右上 ，isort2 的 运行 时 间 仅 是 isort1 的 三 分 之 一 。 

这 一 改动 又 为 进一步 的 加 速 提 供 了 思路 。 由 于 内 循环 中 总 是 给 变 
量 t 赋 同样 的 值 (x 向 的 初始 值 ， 所 以 我 们 可 以 将 上 面 两 个 含 t 的 赋值 
语句 移出 内 循环 ， 并 相应 地 修改 比较 语句 ， 从 而 得 到 isort3: 

for i = [1,n) 

t = x{[i] 

for (j = i; j > 0 && x[j-1] > t; j--) 
x[j] = x[j-1] 

x[j] =t 

只 要 t 小 于 已 排序 部 分 的 元 素 值 ， 我 们 的 代码 惑 将 该 元 素 右 移 一 个 
位 置 ， 最 终 将 t 移 到 它 的 正确 位 置 。 这 个 5 行 的 函数 比 前 面 那个 函数 要 复 
杂 一 些 ， 但 是 在 我 的 系统 上 它 要 比 isort2 函 数 快 15% 。 

在 随机 数据 的 最 坏 情况 下 ， 插 入 排序 的 运行 时 间 和 nm 成 正比 。 下 
表 给 出 了 当 输 入 为 n 个 随机 整数 时 上 面 3 个 程序 的 运行 时 间 。 


= TIS 
插入 排序 1 11.9n° 
插入 排序 2 3.8n° 
插入 排序 3 3.2n° 


第 3 个 程序 排序 n=1 000 个 整数 需要 几 毫 秒 ， 排 序 n=10 000 个 整数 需 
要 三 分 之 一 秒 ， 而 排序 100 万 个 整数 则 几乎 要 一 个 小 时 。 我 们 很 快 会 看 
到 能 在 1 秒 之 内 排序 100 万 个 整数 的 代码 。 如 果 输 入 数组 几乎 是 有 序 
的 ， 那 么 插入 排序 的 速度 会 快 很 多 ， 因 为 每 个 元 素 移动 的 距离 都 很 
短 。11.3 节 的 一 个 算法 利用 了 这 个 性 质 。 


11.2 一 种 简单 的 快速 排 


C.A.R.Hoare [1] 在 其 发 表 于 Computer Journal 5 第 1 期 (1962 年 4 月 ， 
第 10 页 一 第 15 页 ) 的 经 典 论文 “Quicksort” (快速 排序 中 描述 了 这 一 算 
法 。 该 算法 用 到 了 8.3 市 的 分 治 算法 排序 数组 时 ， 将 数组 分 成 两 个 小 
部 分 ， 然 后 对 它们 递归 排序 。 例 如 ， 为 了 对 如 下 的 八 元 数组 排序 : 


aR EEO EE 


0 7 


我 们 围绕 第 一 个 元 素 (55) 进行 划分 : 所 有 人 小 于 55 的 元 素 都 移 到 
其 左边 ， 所 有 大 于 55 的 元 素 都 移 到 其 右边 : 


GED EE 


<55 3 >a 


如 果 接 着 对 下 标 为 0 一 2 的 子 数 组 和 下 标 为 4 一 7 的 子 数 组 分 别 进行 
递归 排序 ， 那 么 整个 数组 就 排 好 序 了 。 

该 算法 的 平均 运行 时 间 远 远 小 于 插入 排序 的 O(n? ) 时 间 ， 因 为 划分 
操作 对 排序 大 有 人 神 益 ， 通 津 对 n 个 元 素 进 行 划 分 之 后 ， 大 约 有 一 半 元 素 
的 值 大 于 划分 值 ， 一 半 元 素 的 值 小 于 划分 值 ， 而 在 相近 的 运行 时 间 
内 ， 插 入 排序 的 仿 选 操作 只 能 使 一 个 元 素 移动 到 正确 的 位 置 。 

现在 我 们 对 递归 函数 有 了 大 概 的 了 解 。 下 面 分 别 用 下 标 1 和 u 表 示 数 
组 待 排序 部 分 的 下 界 和 上 界 ， 递 归结 束 的 条 件 是 待 排序 部 分 的 元 素 个 
数 小 于 2。 代 码 如 下 : 


void qsort(l,u) 


if 1 >= u then 
/* at most one element,do nothing */ 
return 
/* goal:partition array around a particular value, 
which is eventually placed in its correct position p*/ 
qsort(l,p-1) 
qsort(p+1,u) 
为 了 围绕 值 t 对 数组 进行 划分 ， 我 们 首先 从 一 个 简单 的 方案 开始 ， 
这 是 我 从 Nico Lomuto 那 里 学 到 的 。 下 一 节 我 们 将 看 到 一 个 更 快 的 程序 
[2] ， 但 本 市 提供 的 这 个 函数 很 容易 理解 ， 所 以 基本 上 不 会 出 错 ， 而 且 
速度 也 绝对 不 慢 。 给 定 了 值 t 之 后 ， 我 们 需要 重新 组 织 x[a..b]， 并 计算 
下 标 m (PACA Bin) ， 使 得 所 有 小 于 t 的 元 素 在 m 的 一 端 ， 所 有 


大 于 t 的 元 聚 在 巴 的 为 一 病 。 下 面 通 过 一 个 从 互 到 右 扫 摘 数 组 的 简单 for 
循环 完成 这 一 任务 ， 其 中 用 变量 :和 m 指 向 数组 x 中 的 下 列 不 变 式 。 


i b 


代码 在 检查 第 i 个 元 素 时 必须 考虑 两 种 情况 。 如 末 x[i]>t， 那 么 一 切 
正常 ， 不 变 式 仍然 为 真 ， 如 果 x[i]<t， 可 以 通过 使 m 增 加 1 (指向 小 元 素 
的 新 位 置 ) 重新 获得 不 变 式 ， 然 后 交换 x 中 和 x[m]。 完 整 的 划分 代码 如 
iP 

m = a-1 

for i = [a,b] 

if xli] <t 
swap(++m,i) 

下 面 我 们 围绕 值 t = x 中 划分 数组 x[1..u]， 从 而 a 为 +1，b 为 u。 
此 ， 划 分 循环 的 不 变 式 如 下 所 示 : 


l m i u 


l m u 


然后 交换 x[1] 和 x[m] 得 到 : [3] 


l m u 


现在 就 可 以 使 用 参数 (1,m-1) 和 (m+1,u) 分 两 次 递归 调用 该 函数 了 。 
最 终 我 们 得 到 了 第 一 个 完整 的 快速 排序 代码 qsort1， 可 以 通过 调用 
qsort1(0,n-1) 来 排序 数组 x[n]。 
void qsort1(],u) 
if (1 >= U) 
return 
m=1 
for i = [l+1,u] 
/* invariant: x[l+1..m] < x[l] && 
x[m+1..i-1] >= x[l] */ 
if (x[i] < x[i) 
swap(++m,i) 
swap(l,m) 
/* x[l..m-1] < x[m] <= x[m+1..u] */ 
qsort1(l,m-1) 
qsort1(m+1,u) 
习题 2 描述 了 Bob Sedgewick 对 该 划分 代码 的 修改 ， 修 改 后 可 以 得 
到 稍微 快 一 点 的 gsort2。 
有 关 该 程序 正确 性 证 明 的 大 部 分 内 容 都 已 经 在 上 面 的 推导 过 程 中 
给 出 了 ， 具 体 的 证 明 过 程 可 以 通过 归纳 进行 :外 层 的 f 语 句 正确 地 处理 
了 至 数组 和 1 元 数组 ， 而 划分 代码 可 以 正确 地 把 对 大 数组 的 处 理 分 成 两 


个 小 的 递归 调用 。 该 程序 不 会 导致 无 限 递归 调用 ， 因 为 每 次 调用 都 排 
除了 元 素 x[m]， 这 和 4.3 和 证 明 二 分 搜索 会 终止 道理 一 样 。 

当 输 入 数组 是 不 同 元 素 的 随机 排列 时 ， 该 快速 排序 平均 需要 Oa 
log mo 的 时 间 和 OUdogm 的 栈 空 间 ， 其 数学 原理 和 8.3 世 类 似 。 大 多 数 算 法 
教材 都 分 析 了 快速 排序 的 运行 时 间 ， 并 证 明了 任何 基于 比较 的 排序 至 
少 需 要 O(n log n) 次 比较 ， 因 此 快速 排序 接近 最 优 算法 。 

qsortl 函数 是 我 所 知道 的 最 简单 的 快速 排序 ， 它 展现 了 该 算法 的 很 
多 重要 属性 。 首 要 的 一 点 是 ， 它 确实 非常 快 : 在 我 的 系统 上 ， 该 函数 
只 需要 一 秒 多 一 点 的 时 间 就 能 够 对 100 万 个 随机 整数 排序 ， 大 约 比 调 优 
过 的 C 库 函数 qsort 快 1 倍 。 〈qsort 函 数 的 通用 接口 开销 很 大 。) gsortl 范 
数 可 能 适合 于 一 些 表现 展 好 的 应 用 程序 ， 但 是 它 具 有 很 多 快速 排序 算 
法 都 具有 的 男 一 个 性 质 ， 在 一 些 和 常见 输入 下 ， 它 可 能 退化 为 平方 时 间 
的 算法 。 下 一 节 人 研究 几 种 更 健壮 的 快速 排序 算法 。 


11.3 更 好 的 几 种 快速 排序 


qsort1 芳 数 能 够 快速 完成 对 随机 整数 数组 的 排序 ， 但 是 在 非 随 机 的 
输入 上 它 的 性 能 如 何 呢 ?如 2.4 节 所 示 ， 程 序 员 经 常 通过 排序 来 获取 相 
等 的 元 素 ， 因 此 我 们 需要 考虑 一 种 极端 的 情况 : n 个 相同 元 素 组 成 的 数 
组 。 对 于 这 种 输入 ， 揪 入 排序 的 性 能 非常 好 : 每 个 元 素 需要 移动 的 距 
离 都 为 0， 所 以 总 的 运行 时 间 为 OOm; 但 qsort1 函 数 的 性 能 却 非常 粳 
糕 。n-1 次 划分 中 每 次 划分 都 需要 O(n) 时 间 来 去 掉 一 个 元 素 ， 所 以 总 的 
运行 时 间 为 O(n? )。 当 n=1 000 000 时 ， 运 行 时 间 从 一 秒 一 下 子 变 成 了 两 
个 小 时 。 

使 用 双向 划分 可 以 避免 这 个 问题 ， 循 环 不 变 式 如 下 : 下 标 1 和 j 初 
台 化 为 待 划分 数组 的 两 端 。 主 循环 中 有 两 个 内 循环 ， 第 一 个 内 循环 将 ;i 
向 右 移 过 小 元 素 ， 遇 到 大 元 素 时 停止 ， 第 二 个 内 循环 将 j 向 无 移 过 大 元 


素 ， 遇 到 小 元 素 时 停止 。 然 后 主 循环 测试 这 两 个 下 标 是 否 交 叉 并 交换 
它们 的 值 。 


1 i i u 

(A SCRA OAS BOE? RITE ARSE A 
描 元 素 以 避免 做 多 余 的 工作 ， 但 是 当 所 有 的 输入 都 相同 时 ， 这 样 做 会 
得 到 平方 时 间 的 算法 。 我 们 的 做 法 是 ， 当 人 过 到 相同 的 元 素 时 停止 扫 
接 ， 并 交换 i 和 和 j 的 值 。 这 样 做 虽然 使 交换 的 次 数 增加 了 ， 但 却 将 所 有 元 
素 都 相同 的 最 坏 情 况 变 成 了 差不多 需要 nlog2n 次 比较 的 最 好 情况 。 下 面 
的 代码 实现 了 这 一 划分 ; 

void qsort3(l,u) 


ifl>=u 


return 
t= x[l];i=1;j=u+1 
loop 
do i++ while i <= u && x[i] <t 
do j-- while x[j] >t 
ifi>j 
break 
swap(i,j) 
swap(1,j) 
qsort3(1,j-1) 
qsort3(j+1,u) 


除了 能 够 处 理 所 有 元 妹 都 相同 的 情况 外 ， 上 述 代 码 的 平均 交换 次 
数 也 比 qsort1 少 。 

到 目前 为 止 我 们 看 到 的 快速 排序 都 是 围绕 数组 的 第 一 个 元 素 进 行 
划分 的 。 对 于 随机 输入 ， 这 样 做 没 问 题 ， 但 对 于 某 些 常见 输出 ， 这 种 
做 法 需要 的 时 间 和 空间 都 偏 多 。 例 如 ， 如 果 数 组 已 经 按 升序 排 好 了 ， 
那么 它 就 会 先 围绕 最 小 的 元 素 进行 划分 ， 然 后 是 第 2 小 的 元 素 ， 依 此 
类 推 ， 总 共 需 要 O(n? ) 的 时 间 。 随 机 选择 划分 元 素 束 可 以 得 到 好 得 多 的 
性 能 ， 我 们 通过 把 xD 与 x01..] 中 的 一 个 随机 项 相交 换 来 实现 这 一 点 : 

swap(l,randint(l,u)); 

如 条 手头 没有 现成 的 randint 函 数 ， 可 以 用 习题 12.1 的 方法 目 己 编写 
一 个 。 但 是 不 论 使 用 什么 样 的 代码 ， 都 要 注意 randint 返回 的 值 在 范围 
[uu] 内 一 一 超出 这 个 范围 是 不 对 的 。 结 合 随 机 划分 元 素 和 双 同 划分 代码 
后 ， 对 于 任意 的 n 元 输入 数组 ， 快 速 排 序 的 期 望 运行 时 间 都 正比 于 n log 
n。 随 机 情况 下 的 性 能 边界 是 通过 调用 随机 数 生成 絮 得 到 的 ， 而 不 是 通 
过 对 输入 的 分 布 进 行 假设 得 到 的 。 

我 们 的 快速 排序 程序 花费 了 大 量 的 时 间 来 排序 很 小 的 子 数组 。 如 
采用 插入 排序 之 类 的 简单 方法 来 排序 这 些 很 小 的 子 数组 ， 程 序 的 速度 
会 更 快 。Bob Sedgewick 开 发 了 一 个 特别 聪明 的 代码 来 实现 这 一 思想 。 
当 在 小 的 子 数 组 上 调用 快速 排序 时 dA u 非常 接近 ) ， 不 执行 任何 操 
作 。 我 们 将 qsort3 中 的 第 一 个 话语 句 改 为 


if u-l < cutoff 


return 
其 中 cutoff 是 一 个 小 整数 。 程 序 结束 时 ， 数 组 并 不 是 有 序 的 ， 而 是 
被 组 合成 一 块 一 块 随 机 排列 的 值 ， 并 且 满 足 这 样 的 条 件 ， 某 一 块 中 的 
元 素 小 于 它 右边 任何 块 中 的 元 素 。 我 们 必须 通过 男 一 种 排序 算法 对 块 
的 内 部 进行 排序 。 由 于 数组 是 几乎 有 序 的 ， 因 此 插入 排序 比较 适用 。 
我 们 通过 下 面 的 代码 排序 整个 数组 : 


qsort4(0,n-1) 

isort3() 

习题 3 讨论 了 cutoff 的 最 佳 取 值 。 

代码 调 优 的 最 后 一 步 是 展开 循环 体内 swap 画 数 的 代码 《另外 两 个 
对 swap 的 调用 不 在 循环 体内 ， 将 它们 改写 为 内 联 代码 对 速度 的 影响 微 
平 其 微 。 下 面 是 快速 排序 的 最 终 代码 qsort4: 

void qsort4(],u) 


if u — l < cutoff 
return 
swap(l,randint(l,u)) 
t=x[l]; i=l; j=u+1 
loop 
do i++; while i <= u && xli] <t 
do j--; while x[j] >t 
ifi>j 
break 
temp = xli]; x[i] = x[j]; x[j] = temp swap(1,j) 
qsort4(1,j-1) 
qsort4(j+1,u) 
习题 4 和 习题 11 提 到 了 进一步 提升 快速 排序 性 能 的 方法 。 
下 表 对 快速 排序 的 各 个 版 本 进行 了 总 结 。 最 右边 一 列 给 出 了 排序 n 
个 随机 整数 所 需 的 平均 运行 时 间 ， 以 纳 秒 为 单位 。 在 某 些 输入 条 件 
下 ， 表 中 许多 函数 都 会 退化 为 平方 时 间 的 算法 。 


纳 秒 (ns) 
C 标准 库 函 数 gsort 137n log n 
快速 排序 1 
快速 排序 2 
快速 排序 3 
快速 排序 4 
C++ fp HEE pk BZ sort 


60n log: n 
56n logs n 
44n log> n 
36n log n 
307 log: n 


qsort4 范 数 使 用 15 行 C 代 码 和 isort3 的 5 行 代 码 。 对 于 100 万 个 随机 整 
数 ， 表 中 程序 的 运行 时 间 在 0.6 秒 (C++ 标 准 库 范 数 sort) 到 2.7 秒 (C 标 
准 库 函数 qsort) 之 间 。 第 14 章 我 们 将 看 到 一 种 即使 在 最 坏 情况 下 也 能 
够 确保 O(n log n) 时 间 性 能 的 排序 算法 。 


11.4 原理 


本 章 介绍 了 一 些 重 要 的 经 验 ， 既 适用 于 排序 这 个 具体 问题 ， 也 适 
用 于 一 般 意义 上 的 编程 。 

C 标准 库 函 数 qsort JE% A E HAWER R, EERIE CSA 
快速 排序 慢 ， 仅 仅 是 因为 其 通用 而 灵活 的 接口 对 每 次 比较 都 使 用 函数 
调用 。C++ 标 准 库 范 数 sort 具 有 最 简单 的 接口 我们 通过 调用 sort(x,x+n) 
对 数组 x 排序 ， 其 实现 也 非常 高 效 。 如果 系统 中 的 排序 能 够 满足 我 们 的 
需求 ， 那 么 就 不 用 考虑 上 自己 编写 代码 了 。 

插入 排序 的 代码 很 容易 编写 ， 并且 对 于 小 型 的 排序 任务 速度 很 
快 。 在 我 的 系统 上 用 isort3 排 序 10 000 个 整数 仅 需 要 三 分 之 一 秒 。 

如 果 n 很 大 ， 快 速 排序 的 Om log n) 运 行 时 间 就 非常 关键 了 。 第 8 章 
的 算法 设计 方法 为 我 们 提供 了 分 治 算法 的 基本 思想 ， 第 4 章 的 程序 验证 
技术 使 得 我 们 能 够 用 简洁 而 高 效 的 代码 实现 这 一 思想 。 


尽管 更 改 算法 能 够 大 大 提高 程序 的 速度 ， 但 第 9 章 介 绍 的 代码 调 优 
技术 可 以 进一步 使 插入 排序 的 速度 提高 3 倍 ， 快 速 排序 的 速度 提高 1 


倍 。 
11.5 习题 


1. 就 像 其 他 任何 强大 的 工具 一 样 ， 我 们 经 常会 在 不 该 使 用 排序 的 时 
候 使 用 排序 ， 而 在 应 该 使 用 排序 的 时 候 却 不 使 用 排序 。 请 解释 在 计算 n 
元 浮 点 数组 的 最 小 值 、 最 大 值 、 均 值 、 中 值 、 众 数 等 统计 量 时 ， 哪 些 
情况 会 导致 过 度 使 用 排序 ， 哪 些 情况 会 导致 不 能 充分 利用 排序 。 

2.[R.Sedgewick] 把 x[]] 用 作 哨 兵 以 加 速 Lomuto 的 划分 方案 。 说 明 如 
何 利 用 该 方法 来 移 除 循环 后 面 的 swap 。 

3. 在 特定 的 系统 上 如 何 求 出 最 佳 的 cutoff 值 ? 

4. 虽 然 快 速 排 序 平均 只 需要 O(log n) 的 栈 空间 ， 但 是 在 最 坏 情况 下 
需要 线性 空间 ， 请 解释 原因 。 修 改 程序 ， 使 得 最 坏 情况 下 仅 使 用 对 数 
空间 。 

5.[M.D.Mcllroy] 说 明 如 何 用 Lomuto 的 划分 方案 来 排序 可 变 长 的 位 
字符 串 ， 要 求 排序 时 间 与 位 字符 串 的 长 度 之 和 成 正比 。 

6. 使 用 本 章 的 方法 实现 其 他 排序 算法 。 选 择 排 序 首先 将 最 小 的 值 放 
在 x[0] 中 ， 然 后 将 剩 下 的 最 小 值 放 在 x[1] 中 ， 依 此 类 推 。 项 尔 排序 (或 
“递减 增 量 排序 ”) 类 似 于 插入 排序 ， 但 它 将 元 素 向 后 移动 h 个 位 置 而 不 
是 1 个 位 置 。h 的 值 开始 很 大 ， 然 后 慢 慢 减 小 。 

7. 本 章 排 序 程序 的 实现 在 本 书 网 站 上 可 以 下 载 。 统 计 在 你 的 系统 
运行 各 个 排序 函数 所 需 的 时 间 ， 然 后 将 统计 值 制 成 类 似 于 11.3 节 的 表 。 

8. 起 草 一 份 一 页 纸 的 指南 ， 告 诉 用 户 如 何在 你 的 系统 中 选择 排序 算 
法 。 确 保 你 的 方法 考虑 到 了 运行 时 间 、 空 间 、 程 序 员 时 间 〈 开 发 和 维 
护 所 需 的 时 间 ) 、 通 用 性 (如 果 我 想 排 序 代表 罗马 数字 的 字符 串 会 怎 


样 ? ) 、 稳 定性 (具有 相同 关键 字 的 项 在 排序 前 后 的 相对 顺序 不 变 ) 
及 输入 数据 的 特殊 性 质 等 。 用 第 1 章 描 述 的 排序 问题 对 你 的 方法 进行 
极端 测试 。 

9. 编 写 程序 ， 在 O(n) 时 间 内 从 数组 x[0..n-1] 中 找 出 第 k 个 最 小 的 元 
素 。 算 法 可 以 对 x 中 的 元 素 进 行 排序 。 

10. 收 集 并 显示 有 关 快 速 排序 程序 运行 时 间 的 经 验 数据 。 

11. 编 写 一 个 “ 宽 文 操 ? 划 分 画 数 ， 使 得 结 末 如 下 图 所 示 : 


如 何 将 这 个 函数 应 用 到 快速 排序 中 ? 
12. 研 究 非 计算 机 应 用 (如 邮件 收发 室 和 零钱 分 类 器 ) 中 的 排序 方 


13. 本 章 介 绍 的 快速 排序 程序 随机 选择 一 个 划分 元 素 。 人 研究 更 好 的 
选择 ， 如 数组 样本 的 中 间 值 。 

14. 本 章 的 快速 排序 使 用 两 个 整数 下 标 表 示 子 数组 。 在 Java 等 语言 
中 必须 这 样 做 ， 因 为 它们 没有 指向 数组 的 指针 。 在 C 或 C++ 中 ， 可 以 为 
初始 调用 和 所 有 的 递归 调用 使 用 类 似 下 面 的 函数 来 排序 整数 数组 : 

void qsort(int x[],int n) 


修改 本 章 中 的 算法 ， 使 它们 都 使 用 这 一 接口 。 
11.6 深入 阅读 


Don Knuth 的 The Art of Computer Programming,Volume 3: Sorting 
and Searching 自 从 1973 年 由 Addison-Wesley 出 版 社 出 版 第 1 版 以 来 ， 一 直 
是 该 领域 的 权威 参考 书 。 他 详细 介绍 了 所 有 的 重要 算法 ， 从 数学 上 分 
析 了 它们 的 运行 时 间 ， 并 用 汇编 代码 加 以 实现 。 该 书 的 练习 题 和 参考 
书目 描述 了 基本 算法 的 许多 重要 变 体 。1998 年 Knuth 把 该 书 更 新 并 修订 


为 第 2 版 ， 他 所 用 的 MIX 汇编 语言 有 些 过 时 了 ， 但 是 代码 所 体现 的 基 
本 原理 是 永恒 的 。 

Robert Sedgewick 在 他 的 名 著 Algorithms 第 3 版 中 对 排序 和 搜索 给 出 
了 更 加 现代 化 的 描述 。 该 书 的 第 一 部 分 至 第 四 部 分 分 别 介绍 基本 原 
理 、 数 据 结构 、 排 序 和 搜索 。Algorithms in C 由 Addison-Wesley 出 版 社 
1997 年 出 版 ，Algorithms in C++ 《C++ 顾问 为 Chris Van Wyk) 于 1998 年 
出 版 ，Algorithms in Java (Java 顾 问 为 Tim Lindholm) 于 1999 年 出 版 。 
他 着 重 强调 算法 的 实现 (使 用 你 自己 选择 的 语言 ) ， 并 从 直观 上 解释 
了 算法 的 性 能 。 

这 几 本 书 是 本 书 中 排序 (本章) ER 〈 第 13 章 ) ME (第 14 
章 ) 的 主要 参考 书 。 
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小 的 计算 机 程序 往往 能 够 元 教 于 乐 。 本 章 讲述 了 一 个 小 程序 的 故 
事 ， 这 个 程序 不 仅 用 来 教学 和 娱乐 ， 还 可 用 于 商业 。 


12.1 问题 


20 世 纪 80 年 代 初 ， 一 家 公司 购 严 了 他 们 的 第 一 批 个 人 电脑 。 帮 他 
们 安装 好 主要 的 系统 使 其 能 够 运行 之 后 ， 我 建议 他 们 留意 一 下 办 公 室 
里 面 哪些 工作 可 以 用 程序 来 完成 。 该 公司 的 业务 主要 是 民意 调查 ， 
个 机 敏 的 雇员 建议 让 计算 机 自动 完成 从 打印 出 的 选区 列表 中 进行 随机 
取样 的 任务 。 由 于 手工 做 这 件 事 非 常 村 燥 ， 人 处理 一 张 随 机 表 需 要 一 个 
小 时 ， 她 建议 开发 如 下 的 程序 : 


程序 的 输入 是 选区 名 列表 以 及 整数 m， 输 出 是 随机 选择 的 m 个 选区 
名 的 列表 。 通 常 选区 名 有 几 百 个 (每 个 选区 名 都 是 一 个 不 超过 12 字 符 
的 字符 串 ) ，m 通 常 在 20~40。 

这 是 用 户 对 程序 的 想法 ， 在 开始 编码 之 前 你 对 问题 的 定义 有 什么 
建议 吗 ? 

我 的 第 一 反应 是 : 这 是 一 个 好 主意 ， 这 个 任务 比较 适合 自动 化 。 
接着 我 指出 ， 输 入 几 百 个 名 字 虽 然 可 能 比 处 理 一 长 列 一 长 列 的 随机 数 
容易 一 些 ， 但 仍然 很 枯燥 且 容 易 出 错 。 一 般 来 说 ， 如 果 程 序 会 忽略 输 
入 中 的 大 部 分 内 容 ， 那 么 准备 很 多 的 输入 是 不 明智 的 。 因 此 我 建议 实 
现下 面 的 程序 ; 

程序 的 输入 包含 两 个 整数 m 和 n， 其 中 m<n。 输 出 是 0~n-1 范 围 [4] 
内 m 个 随机 整数 的 有 序列 表 ， 不 允许 重复 。 从 概率 的 角度 说 ， 我 们 希望 
得 到 没有 重复 的 有 序 选 择 ， 其 中 每 个 选择 出 现 的 概率 相等 。 

当 m=20，n=200 时 ， 程 序 可 能 产生 4、15、17 开 始 的 20 元 序列 ， 然 
后 用 户 在 200 个 选区 的 列表 中 标记 出 第 4、15、17 个 选区 名 ， 等 等 ， 从 
而 完成 对 20 个 样本 的 取样 。 (要 求 输出 是 有 序 的 ， 因 为 硬 拷贝 的 列表 
上 没有 编号 。) 

这 一 规范 说 明 得 到 了 潜在 用 户 的 认可 。 程 序 实现 之 后 ， 原 先 一 小 
时 的 任务 现在 只 要 几 分 钟 就 能 完成 。 

下 面 从 另 一 个 角度 考虑 这 个 问题 : 如 何 实现 这 个 程序 ? 假设 你 有 
一 个 能 返回 很 大 的 随机 整数 ( 远 远大 于 m 和 n) 的 函数 bigrand0， 以 及 
一 个 能 返回 i..j 玫 围 内 均匀 寺 择 的 随机 整数 的 玉 数 randint(i,j)。 习题 1 讨论 
了 这 类 函数 的 实现 。 


12.2 一 种 解决 方案 


确定 了 需要 解决 的 问题 后 ， 我 马上 找 出 Knuth 的 The Art of 
Computer Programming,Volume2: Seminumerical Algoriths [5] (在 家 里 
和 办 公 室 都 放 上 Knuth 的 三 卷 本 是 很 值得 的 ) 。10 年 前 我 就 认真 研读 过 
这 本 书 ， 隐 约 记 得 书 中 有 几 个 算法 能 解决 类 似 的 问题 。 人 花 儿 分 钟 考 虑 
了 几 种 可 能 的 设计 〈 稍 后 将 看 到 ) 之 后 ， 我 认为 该 书 3.4.2 TRIE S 
是 理想 的 解决 方案 。 

该 算法 依次 考虑 整数 0,1,2,...n-1， 并 通过 一 个 适当 的 随机 测试 对 每 
个 整数 进行 选择 。 通 过 按 序 访问 整数 ， 我 们 可 以 保证 输出 结果 是 有 序 
Hy ° 

为 了 理解 选择 的 标准 ， 我 们 考虑 m=2，n=5 的 情况 。 选 择 第 一 个 整 
数 0 的 概率 为 25， 可 以 通过 下 面 的 语句 来 实现 : 

if (bigrand() % 5) < 2 

不 幸 的 是 ， 我 们 不 能 用 同样 的 概率 来 选择 整数 1: 这 样 做 的 话 我 们 
从 5 个 整数 中 选 出 的 整数 可 能 是 两 个 也 可 能 不 是 两 个 。 因 此 决策 有 一 些 
不 同 : 在 已 经 选择 0 的 情况 下 以 1/4 的 概率 选择 1， 而 在 未 选择 0 的 情况 下 
以 2/4 的 概率 选择 1。 一 般 来 说 ， 如 果 要 从 r 个 剩余 的 整数 中 选 出 s 个 ， 我 
们 以 概率 sr 选择 下 一 个 数 ， 伪 代码 如 下 ; 


select = m 


remaining = n 
for i = [0,n) 
if (bigrand() % remaining) < select print i 
select-- 
remaining-- 
只 要 msn， 程 序 选 出 的 整数 就 恰 为 mh: 不 会 选择 更 多 的 整数 ， 
因为 select 变 为 0 时 就 不 能 再 选择 整数 了 ; 也 不 会 选择 更 少 的 整数 ， 
为 当 select/remaining 为 1 时 一 定 会 选中 一 个 整数 。for 语 句 确保 按 序 输 出 


所 有 的 整数 。 上 面 的 摘 述 可 以 帮助 我 们 理解 ， 每 个 子 集 被 选中 的 可 能 
性 是 相等 的 ，Knuth 给 出 了 概率 上 的 证 明 。 

有 了 Knuth 的 第 2 卷 ， 这 个 程序 就 很 容易 写 了 。 即 使 包含 标题 、 输 
入 、 输 出 和 越界 检查 等 内 容 ， 最 终 的 程序 也 只 需要 13 行 BASIC 代 码 。 
问题 定义 清楚 后 ， 程 序 只 需要 半 个 小 时 就 能 写 完 ， 而 且 使 用 多 年 也 没 
有 问题 。 下 面 给 出 C++ 实 现 : 


void genknuth(int m,int n) 


{ for (int i = 0; i < n; i++) 
/* select m of remaining n-i */ 
if ((bigrand() % (n-i)) < m) { 
cout <<i << "\n"; 
M--,; 
} 
} 
程序 只 需要 几 十 个 字 市 的 内 存 ， 并 能 快速 解决 该 公司 的 问题 。 不 
过 ， 当 n 很 大 时 代码 会 比较 慢 。 例 如 ， 在 我 的 机 絮 上 使 用 该 算法 生成 一 
些 32 位 的 随机 正 整数 n=22 ) 需要 12 分 钟 。 粗 略 信 算 : 使 用 该 代码 生 
成 1 个 48 位 或 64 位 的 整数 需要 多 长 时 间 ? 


12.3 设计 空间 


解决 现 有 的 问题 是 程序 员 任 务 的 一 部 分 ， 另 一 个 也 许 更 重要 的 部 
分 是 做 好 解决 未 来 问题 的 准备 。 有 时 ， 这 种 准备 包括 听课 或 者 读书 
(如 Knuth 的 书 ) ; 不 过 更 肖 见 的 情况 是 ， 程 序 员 通 过 询问 自己 如 何 
用 不 同 的 方法 解决 问题 来 得 到 提高 。 下 面 我 们 就 来 探讨 一 下 取样 问题 
的 其 他 可 行 解决 方案 。 


我 在 西点 军校 谈 到 这 个 问题 的 时 候 ， 要 求 他 们 给 出 一 个 比 原始 问 
题 陈 述 (输入 200 个 选区 名 ) 更 好 的 方法 。 一 个 学 生 建 议 复印 选区 列 
表 ， 用 切 纸 机 将 副本 切 成 一 个 个 台 有 选区 名 的 纸 片 ， 然 后 将 这 些 纸 片 
放 入 一 个 纸袋 中 并 播 乱 ， 再 从 中 抽取 需要 数目 的 纸 片 。 这 个 学 生 的 方 
法 体现 了 1.7 市 引用 的 James L.Adams 著 作 [6] 的 主题 打破 概念 壁垒 ”。 

从 现在 开始 ， 我 们 把 目标 限定 为 : 编写 程序 从 0~n-1 中 随机 输出 m 
个 有 序 整数 。 首 先 评价 一 下 前 面 的 算法 。 该 算法 思想 很 位 单 ， 代 码 很 
短 ， 所 需 的 空间 很 少 ， 运 行 时 间 对 这 个 应 用 来 说 也 是 合适 的 。 不 过 ， 
算法 的 运行 时 间 跟 n 成 正比 ， 对 有 些 应 用 来 说 是 不 能 接受 的 ， 因 此 花 几 
分 钟 研 究 一 下 其 他 的 解决 方案 还 是 值得 的 。 在 阅读 下 面 的 内 容 之 前 ， 
尽 可 能 地 多 思考 几 种 高 层 设计 ， 不 必 考 虑 实现 细节 。 

一 种 解决 方案 是 在 一 个 初始 为 空 的 集合 里 面 插入 随机 整数 ， 直 到 
个 数 足够 。 伪 代码 如 下 : 


initialize set S to empty 


size = 0 
while size < m do 
t = bigrand() % n 
if tis not in S 
insert t into S 
size++ 
print the elements of S in sorted order 
算法 对 每 个 元 素 的 决策 都 一 样 ， 输 出 是 随机 的 。 接 下 来 的 问题 古 
如 何 实现 集合 S， 我 们 需要 考虑 一 种 适当 的 数据 结构 。 
如 果 在 过 去 ， 我 们 应 该 会 考虑 有 序 链表 、 二 分 搜索 树 和 其 他 所 有 
可 能 的 和 贡 见 数 据 结构 ; 但 是 现在 ， 我 可 以 利用 C++ 标准 模板 库 ， 用 set 
表示 集合 : 


void gensets(int m,int n) 


{ set<int> S; 
while (S.size() < m) 
S.insert(bigrand() % n); 
set<int>::iterator i; 
for (i = S.beginQ); i != S.end(); ++i) 
cout << *i << "\n"; 
} 
我 很 高 兴 地 看 到 ， 实 际 的 代码 跟 伪 代码 一 样 长 。 这 个 程序 在 我 的 
机 器 上 生成 并 输出 100 万 个 有 序 且 无 重复 的 随机 整数 大 约 需要 20 秒 。 由 
于 仅 生成 并 输出 100 万 个 无 序 的 整数 (不 考虑 重复 就 需要 约 12.5 秒 ， 
因此 集合 运算 只 消耗 了 约 7.5 秒 。 
C++ 标 准 模板 库 规范 每 次 插入 操作 都 在 O(log m ENEE, 
历 集合 则 需要 O(m) 时 间 ， 因 此 完整 的 程序 需要 O(m log m) 时 间 ( 当 m 相 
对 于 n 比 较 小 时 ) 。 但 是 ， 该 数据 结构 的 空间 开销 比较 大 : 我 机 器 的 
128 MB 内 存 大 约 在 m=1 700 000 [7] 时 就 不 够 用 了 。 下 一 章 考虑 该 集合 
的 几 种 可 能 的 实现 。 
生成 随机 整数 的 有 序 子 集 的 另 一 种 方法 是 把 包含 整数 0~n-l 的 数 
组 顺序 打 乱 ， 然 后 把 前 m 个 元 素 排 序 输出 。Knuth 书 中 3.4.2 市 的 算法 P 就 


for i = [0,n) 
swap(i,randint(i,n-1)) 
Ashley Shepherd #/ Alex Woronow 发 现 ， 在 这 个 问题 中 我 们 只 需要 
打 乱 数组 的 前 mm 个 元 素 ， 对 应 的 C++ 代码 如 下 : 
void genshuf(int m,int n) 
{ int i,j; 
int *x = new int[n]; 


for (i = 0; i < n; i++) 


xli] = i; 
for (i = 0; i < m; i++) { 
j = randint(i,n-1); 
int t = x[i]; xli] = xj]; x[j] = t; 
} 
sort(x,x+m); 
for (i = 0; i < m; i++) 
cout << x[i] << "\n"; 
} 
算法 需要 n 个 元 素 的 内 存 空间 和 Or+m log m) 的 时 间 ， 如 果 使 用 习 
题 1.9 的 方法 ， 则 可 以 把 时 间 降 低 到 om log m)。 我 们 可 以 把 这 个 算法 
看 作 前 一 个 程序 的 变 体 : x[0..i-1] 表 示 已 选中 元 素 的 集合 ，x[i..n-1] 表 示 
未 这 中 元 素 的 集合 。 通 过 显 式 地 表示 未 迹 中 的 元 素 ， 我 们 束 避 人 免 了 对 
新 元 素 是 否 已 经 选中 的 测试 。 不 邓 的 是 ， 由 于 这 一 方法 需要 On) 的 时 
间 和 空间 ， 其 性 能 通 第 不 如 Knuth 的 算法 。 
到 目前 为 止 ， 我 们 已 经 看 到 了 几 种 不 同 的 解决 方案 ， 但 这 些 绝 没 
有 能 够 履 兰 所 有 的 解决 方案 。 例 如 ， 当 n 为 100 万 而 症 为 n-10 时 ， 我 们 可 
能 需要 生成 一 个 包含 10 个 元 素 的 有 序 随机 样本 ， 然 后 输出 不 在 样本 中 
的 整数 。 再 如 ， 当 mm 为 1 000 万 而 n 为 231 时 ， 我 们 可 能 会 先生 成 1 100 万 
个 整数 ， 然 后 排序 并 对 其 扫描 以 删除 重复 的 元 素 ， 最 后 得 到 一 个 有 1 
000 万 元 素 的 有 序 样本 。 管 案 9 给 出 了 一 种 特别 聪明 的 基于 搜索 的 算 
法 ， 该 算法 由 Robert Floyd [8] 提出 。 


12.4 原理 


本 章 示 例 了 编程 过 程 中 的 几 个 重要 步 又 。 尽 管 下 面 的 讨论 是 按 一 
种 比较 自然 的 顺序 对 各 个 阶段 进行 介绍 的 ， 实 际 的 设计 过 程 应 该 更 加 


能 动 一 些 : 可 以 从 一 个 阶段 跳 到 另 一 个 阶段 ， 在 得 到 一 个 可 以 接受 的 
解决 方案 之 前 ， 通 常 需要 对 每 个 步骤 和 欠 代 好 多 次 。 

正确 理解 所 壳 到 的 问题 。 与 用 户 讨论 问题 产生 的 背景 。 问 题 的 陈 
述 通 常 就 包含 了 与 解决 方案 有 天 的 想法 ， 跟 早期 的 想法 一 样 ， 这 些 想 
法 也 都 应 当 加 以 考虑 ， 但 不 应 排除 其 他 想法 。 

提炼 出 抽象 问题 。 简 洁 、 明 确 的 问题 陈述 不 仅 可 以 帮助 我 们 解决 
当前 过 到 的 问题 ， 还 有 助 于 我 们 把 解决 方案 应 用 到 其 他 问题 中 。 

考虑 尽 可 能 多 的 解法 。 很 多 程序 员 很 快 瑟 发 现 了 问题 的 “解决 方 
案 ”， 他 们 只 愿意 花 1 分 钟 的 时 间 思 考 ， 然 后 花 一 天 的 时 间 来 写 代 码 ， 
而 不 是 先 花 1 个 小 时 来 思考 ， 再 用 一 个 小 时 来 写 代码 。 非 正式 的 高 级 语 
言 可 以 帮助 我 们 描述 设计 方案 : 伪 代 码 表示 控制 流 ， 抽 象 数 据 类 型 表 
示 关 键 的 数据 结构 。 对 文献 的 熟悉 程度 在 这 一 阶段 非常 重要 。 

实现 一 种 解决 方案 。 如 采 运 气 很 好 的 话 ， 在 前 一 阶段 我 们 就 能 发 
现 某 种 解决 方案 显著 优 于 其 他 方案 ， 否 则 我 们 就 得 列 出 几 种 性 能 比较 
好 的 方案 ， 然 后 从 中 选择 最 佳 的 。 我 们 应 该 用 简单 的 代码 和 最 有 效 的 
操作 来 实现 最 终 选 择 的 解决 方案 。 [9] 

回顾 。Polya 的 How to Solve It 一 书 能 帮助 任何 程序 员 更 好 地 解决 问 
题 。 在 第 15 页 他 指出 :“ 改 进 的 余地 总 是 存在 的 。 经 过 元 分 的 研究 和 思 
考 ， 任 何 解决 方案 都 可 能 被 改 进 ; 任何 情况 下 ， 对 于 解决 方案 的 理解 
一 定 能 被 改进 。?” 他 的 提示 对 编程 问题 的 回顾 尤其 有 用 。 


12.5 习题 


1.C Fe EBX rand0 通 冲 返 回 约 15 个 随机 位 。 使 用 该 函数 实现 函数 
bigrand0 和 randint(u) ， 要 求 前 者 至 少 返回 30 个 随机 位 ， 后 者 返回 [Lu] 
苑 围 内 的 一 个 随机 整数 。 


2.12.1 节 要 求 所 有 的 m 元 子 集 被 选中 的 概率 相等 ， 这 个 条 件 比 按 等 
概率 mm 选择 每 个 整数 更 强 。 给 出 这 样 一 个 算法 ， 其 中 每 个 元 素 的 选中 
概率 相等 ， 但 某 些 子 集 的 选中 概率 比 其 他 子 集 大 一 些 。 

3. 证 明 当 m<n/2 时 ， 基 于 集合 的 算法 在 找到 一 个 不 在 集合 中 的 数 之 
前 ， 所 进行 的 成 员 测 试 的 期 望 次 数 小 于 2 。 

4. 在 基于 集合 的 程序 中 对 成 员 测试 进行 计数 会 产生 组 合 数学 和 概率 
论 中 的 许多 有 趣 问 题 。 程 序 平均 需要 进行 多 少 次 成 员 测 试 (用 m 和 n 的 
函数 表示 ) ? 当 m=n 时 需要 进行 多 少 次 测试 ? 什么 情况 下 测试 次 数 可 能 
超过 m? 

5. 本 章 描述 了 一 个 问题 的 几 种 算法 ， 在 本 书 网 站 上 可 以 下 载 。 在 你 
的 系统 上 度量 它们 的 性 能 ， 并 指出 它们 各 自在 什么 情况 下 适用 (表示 
为 运行 时 间 、 空 间 等 的 约束 函数 ) 

6.[ 课 演练 习 ] 我 在 本 科 生 算法 课程 中 两 次 让 学 生生 成 有 序 子 集 。 在 
学 习 排序 和 搜索 之 前 ， 要 求学 生 以 m=20 和 n=400 编 写 程序 ， 主 要 评分 
标准 是 简短 、 清 晰 一 一 运行 时 间 不 是 问题 。 学 习 了 排序 和 搜索 之 后 ， 
要 求学 生 再 次 以 m=5 000 000 和 n=1 000 000 000 解 决 该 问题 ， 评 分 标准 
主要 基于 运行 时 间 。 

7.[V.A.Vyssotsky] 生 成 组 合 对 象 的 算法 通常 用 递归 函数 来 表达 。 
Knuth 的 算法 如 下 所 示 : 


void randselect(m,n) 


pre 0 <=m<=n 
post m distinct integers from 0..n-1 are printed in decreasing order 
ifm>0O 
if (bigrand() % n) < m 
print n-1 
randselect(m-1,n-1) 


else 


randselect(m,n-1) 

该 程序 按 降 序 输出 随机 整数 ， 如 何 使 其 按 升 序 输出 整数 ? 请 论证 
你 的 升序 程序 的 正确 性 。 如 何 使 用 该 程序 的 基本 递归 结构 生成 0~n-1 的 
所 有 了 m 元 子 集 ? 

8. 如 何 从 0~n-1 中 随机 选择 m 个 整数 ， 使 得 最 终 的 输出 顺序 是 随机 
的 ? 如 果 有 序列 表 中 允许 有 重复 整数 ， 如 何 生 成 该 列表 ? 如 果 既 允许 
重复 ， 又 要 求 按 随 机 顺序 输出 ， 情 况 又 如 何 ? 

9.[R.W.Floyd] 当 mm 接近 于 n 时 ， 基 于 集合 的 算法 生成 的 很 多 随机 数 
都 要 丢掉， 因为 它们 之 前 已 经 存在 于 集合 中 了 。 能 否 给 出 一 个 算法 ， 
使 得 即使 在 最 坏 情 况 下 也 只 使 用 m 个 随机 数 ? 

10. 如 何 从 n 个 对 象 《可 以 依次 看 到 这 n 个 对 象 ， 但 事先 不 知道 n 的 
E) 中 随机 选择 一 个 ? 具体 来 说 ， 如 何在 事先 不 知道 文本 文件 行 数 的 
情况 下 读 取 该 文件 ， 从 中 随机 选择 并 输出 一 行 ? 

11.[M.I.Shamos] 在 一 种 彩票 游戏 中 ， 每 位 玩家 有 一 张 包公 16 个 窗 新 
点 的 纸 脾 ， 履 盖 点 下 面 隐 藏 着 1~16 的 随机 排列 ， 玩 家 刊 开 履 盖 点 则 现 
出 下 面 的 整数 。 只 要 整数 3 出 现 ， 则 判 玩家 负 ; 否则 ， 如 果 1 和 2 都 出 现 
(顺序 不 限 ) ， 则 玩家 获胜 。 随 机 选择 覆盖 点 的 顺序 惑 能 够 获胜 的 概 
率 如 何 计算 ? 请 列 出 详细 步 又， 假定 你 最 多 可 以 使 用 一 个 小 时 的 CPU 
时 间 。 

12. 我 为 本 章 中 某 个 程序 编写 的 最 初版 本 有 一 个 严重 的 问题 : m=0 
时 程序 会 死 掉 ; m 取 其 他 值 时 程序 会 生成 看 似 随机 的 输出 ， 但 实际 上 
并 非 如 此 。 如 何 测 试 一 个 生成 样本 的 程序 ， 以 确保 其 输出 确实 是 随机 
的 ? 


12.6 深入 阅读 


Don Knuth 的 The Art of Computer Programming , Volume3 : 
Seminumerical Algor ithms 3 hi H Addison-Wesley E hig 4t F 1998 £ H 
版 。 该 书 第 3 章 (前 半 部 分 是 关于 随机 数 的 ， 第 4 章 (后 半 部 分 ) 是 
天 于 算术 的 。3.4.2 广 是 关于 “随机 取样 并 打 乱 顺序 ”的 ， 与 本 革 的 内 容 
尤其 相关 。 如 果 想 要 自己 写 随 机 数 生 成 器 或 执行 高 级 算术 运算 的 画 
数 ， 那 么 你 就 需要 阅读 这 本 书 。 


13 X 


搜索 问题 形形色色 。 编 译 占 查询 变量 名 以 得 到 其 类 型 和 地 址 ， 拼 
写 检 查 句 查 字 典 以 确保 单词 拼写 正确 ， 电 话 号 码 短程 序 查 询 用 户 名 以 
找到 其 电话 号 码 ， 因 特 网 域名 服务 帮 查 找 域名 来 发 现 IP 地 址 ， 上 述 应 
用 以 及 很 多 类 似 的 应 用 都 需要 搜索 一 组 数据 ， 以 找到 与 特定 项 相关 的 


= lo 


KARAR MOR. 在 没有 其 他 相关 数据 的 情况 
下 ， 如 何 存储 一 组 整数 ? 这 个 问题 虽然 很 小 ， 但 却 能 引发 在 数据 结构 
实现 中 出 现 的 许多 关键 问题 。 我 们 从 任务 的 准确 定义 开始 ， 用 该 定义 
来 研究 最 常见 的 集合 表示 。 


13.1 HO 


我 们 接着 讨论 上 一 章 的 问题 ， 生 成 [0,maxval] 范 围 内 m 个 随机 整数 
的 有 序 序列 ， 不 允许 重复 。 我 们 的 任务 是 实现 如 下 伪 代 码 : 

initialize set S to empty 

size = 0 


while size < m do 


t= bigrand() % maxval 
if tis notin S 
insert t into S 
sizet+ 
print the elements of S in sorted order 
我 们 将 竺 生成 的 数据 结构 称 为 IntSet， 意 指 整数 集合 。 下 面 我 们 将 
把 该 接口 定义 为 具有 如 下 公有 成 员 的 C++ 类 : 
class IntSetImp { 


public: 
IntSetImp(int maxelements,int maxval); 
void insert(int t); 
int size(); 
void report(int *v); 
}; 
构造 函数 IntSetImp 将 集合 初始 化 为 空 。 该 画 数 有 两 个 参数 ， 分 别 
表示 集合 元 素 的 最 大 个 数 和 集合 元 素 的 最 大 值 (加 1) ， 特 定 的 实现 可 
以 忽略 其 中 之 一 或 者 两 个 都 忽略 。insert 函数 向 集合 中 添加 一 个 新 的 整 
数 (前 提 是 集合 中 原先 没有 这 个 整数 ) ，size 函 数 返 回 当前 的 元 素 个 
数 ， 而 report 范 数 ( 按 顺 序 ) 将 元 素 写 入 向 量 v 中 。 
很 明显 ， 这 个 小 接口 仅 具 有 教学 意义 ， 它 缺乏 对 工业 级 的 类 来 说 
很 关键 的 许多 构成 部 分 ， 例 如 错误 处 理 和 析 构 函数 。 熟 练 的 C++ 程 序 员 
可 能 会 使 用 带 有 虚 函 数 的 抽象 类 来 表示 这 个 接口 ， 然 后 将 每 个 实现 都 
写成 派生 类 。 这 里 我 们 将 采用 更 简单 (有 了 时 也 更 高 效 ) 的 方法 : 用 
IntSetArr 作 为 数组 实现 的 名 字 ， 用 IntSetList 作 为 链表 实现 的 名 字 ， 等 
等 ， 并 用 名 字 IntSetImp 表 示 任 意 实现 。 
下 面 的 C++ 代码 使 用 这 样 的 数据 结构 来 生成 一 个 随机 整数 的 有 序 集 


Ts 
a: 


void gensets(int m,int maxval) 
{ int *v = new int[m]; 
IntSetImp S(m,maxval); 
while (S.size() < m) 
S.insert(bigrand() % maxval); 
S.report(v); 
for (int i = 0; i < m; i++) 
cout << v[i] << "\n"; 
} 
由 于 insert 函 数 不 会 在 集合 中 放 入 重复 元 素 ， 因 此 我 们 不 需要 在 插 
入 前 测试 元 素 是 否 在 集合 中 。 
IntSet 最 简单 的 实现 使 用 了 C++ 标 准 模板 库 中 强大 而 通用 的 set 模 
板 : 
class IntSetSTL { 
private: 
set<int> S; 
public: 


IntSetSTL(int maxelements,int maxval) { }int size() { return S.size(); 


void insert(int t) { S.insert(t); } 
void report(int *v) 
{ int j = 0; 
set<int>::iterator 1; 
for (i = S.beginQ) i != S.end(); ++i) 


v[j++] = *i; 


构造 砂 数 忽略 了 它 的 两 个 参数 。 我 们 的 IntSet、size 和 insert 芳 数 都 
对 应 着 标准 模板 库 中 的 相应 部 分 ，report 芳 数 使 用 标准 的 授 代 姨 将 集合 
元 素 按 序 写 入 数组 。 这 个 通用 结构 不 错 ， 但 还 不 够 完美 ， 下 面 马 上 可 
以 看 到 一 种 时 空 效 率 都 高 出 5 倍 的 对 这 个 特定 任务 的 实现 。 


13.2 线性 结构 


我 们 使 用 整数 数组 这 一 最 简单 的 结构 来 建立 第 一 个 集合 实现 。 我 
们 的 类 用 整数 n 保 存 当 前 的 元 妈 个 数 ， 用 向 量 x 保 存 整 数 本 号 : 


private: 


int n,*x; 
(附录 E 给 出 了 所 有 类 的 完整 实现 。) 下 面 的 C++ 构造 函数 仿 代 码 
为 数组 分 配 空间 (多 分 配 一 个 元 素 的 空间 给 哨兵 用 ) 并 将 n 设 置 为 0: 
IntSetArray(maxelements,maxval) 
x = new int[1 + maxelements] 
n=0 
x[0] = maxval 
由 于 report 函 数 要 求 按 序 输出 ， 因 此 我 们 总 是 按 这 种 方式 存储 元 素 
(在 其 他 一 些 应 用 中 ， 使 用 无 序数 组 更 合适 ) 。 此 外 ， 我 们 将 哨兵 元 
素 maxval 放 置 在 已 排序 元 素 的 最 后 (maxval 比 集合 中 的 任何 元 素 都 
K) 。 这 样 我 们 就 可 以 通过 寻找 一 个 更 大 的 元 素 (maxval) 来 判断 是 
否 到 达 了 列表 的 末尾 ， 从 而 可 以 简化 插入 代码 ， 并 使 其 运行 得 更 快 : 
void insert(t) 


for (i = 0; x[i] < t; i++) 


if x[i] == t 


return 


for (j = n; j >= i; j--) 
x[j+1] = x[j] 

xli] =t 

卫 十 十 


第 一 个 人 循环 扫描 小 于 插入 值 的 数组 元 素 。 如 果 新 元 素 等 于 t， 则 说 


明 它 已 经 在 集合 中 ， 因 此 立即 返回 ; 否则 ， 将 大 于 t 的 元 素 (包括 哨 
兵 ) 都 问 右 移动 一 位 ， 将 t 插 入 到 空 出 来 的 位 置 ， 并 使 n 增 1。 这 需要 
On) 时间 。 


各 种 实现 中 的 size 函 数 都 是 一 样 的 : 
int size() 
return n 


report 函 数 在 O(D) 时 间 内 将 所 有 元 素 (哨兵 除外 ) 复制 到 输出 数组 


void report(v) 
for i = [0,n] 
vli] = x[i] 


如 朱 事 先知 道 集 合 的 大 小 ， 那 么 数组 是 一 种 比较 理想 的 结构 。 


为 数组 是 有 序 的 ， 所 以 我 们 可 以 用 二 分 搜索 建立 一 个 运行 时 间 为 O(log 
n) 的 成 员 函 数 。 本 市 最 后 将 详细 讨论 数组 的 运行 时 间 。 


如 琳 事 先 不 知道 集合 的 大 小 ， 那 么 链表 将 是 表示 和 集合 的 首选 结 


构 ， 而 且 链 表 还 能 省 去 插入 时 元 素 移 动 的 开销 。 


head: 一 [5[ 村 GT 村 -CT 了 [97 


我 们 的 IntSetList 类 将 使 用 下 面 的 私有 数据 ; 
private: 


int n; 


struct node{ 
int val; 
node *next; 
node(int v,node *p){val = v ; next = p ;} 
bs 
node *head,*sentinel; 
HER PA ET a RE TA Pig eR 2 
的 指针 ，node 构 造 贸 数 将 两 个 参数 的 值 赋 给 这 两 个 字段 。 
出 于 和 使 用 有 序数 组 同样 的 原因 ， 我 们 使 用 的 链表 也 是 有 序 的 。 
与 在 数组 中 一 样 ， 链 表 使 用 了 一 个 哨兵 结 点 ， 其 值 大 于 所 有 实际 的 
值 。 构 造 函 数 建立 这 样 一 个 结 点 ， 并 让 头 指 针 head 指 向 它 。 


IntSetList(maxelements,maxval) 


sentinel = head = new node(maxval,0) 

n=0 
report 函 数 遇 历 链 表 ， 并 将 排 好 序 的 元 素 写 入 输出 向 量 : 
void report(int*v) 

j=0 

for (p = head; p != sentinel; p = p->next) 


v[j++] = p->val 
KTEAF EKPA IN, Bee EMER, HARENA 
素 (此 时 立即 返回 ) 或 找到 一 个 更 大 的 值 并 在 该 点 插入 新 元 素 。 不 入 
的 是 ， 情 形 的 多 样 化 通常 会 导致 代码 比较 复杂 ， 见 答案 4。 我 所 知道 的 
完成 这 个 任务 的 最 简单 的 代码 是 一 个 递归 函数 ， 初 始 调 用 是 这 样 的 : 


void insert(t) 


head = rinsert(head,t) 
递归 部 分 非常 清晰 


node *rinsert(p,t) 


if p->val <t 
p->next = rinsert(p->next,t) 
else if p->val > t 


p = new node(t,p) 


卫 十 十 
return p 
当 编 程 问题 隐藏 在 众多 特殊 情形 下 时 ， 使 用 递归 通常 能 够 将 代码 
简化 成 上 面 这 样 。 


当 使 用 上 面 两 种 结构 之 一 来 生成 m 个 随机 整数 时 ， 对 m 次 搜索 中 的 
每 一 次 而 言 ， 平 均 运行 时 间 都 与 m 成 正比 。 因 此 这 两 种 结构 的 总 运行 
时 间 都 正比 于 m*。 我 猜测 链表 版 本 比 数组 版 本 要 稍微 快 一 些 ， 它 通过 
使 用 额外 的 空间 (用 于 指针 ) 避免 了 对 较 大 元 素 的 移动 。 下 面 是 n 固 定 
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为 1 000 000， 而 m 在 10 000~40 000 变 化 时 的 运行 时 间 。 


结 构 集合 规模 (m) 
10 000 20000 40000 
数组 0.6 22.6 211.1 
简单 链表 5.7 31.2 170.0 
链表 (消除 递归 ) 1.8 12.6 273.8 
链表 (组 分 配 ) 1.2 257 225.4 


跟 我 所 估计 的 一 样 ， 数 组 的 运行 时 间 成 平方 级 递增 ， 并 带 有 比较 
合理 的 第 数 因 了 于。 不 过 我 第 一 次 实现 的 链表 开始 时 比 数组 慢 一 个 数量 
级 ， 而 后 来 运行 时 间 的 增幅 却 比 m? 还 要 快 ， 肯 定 出 了 问题 。 

我 的 第 一 反应 束 是 将 原因 归结 为 递归 。 除 了 递归 调用 的 开销 外 ， 
rinsert 函 数 的 递归 深度 就 是 找到 元 素 的 位 置 ， 即 O(m)。 递 归 全 部 结 


后 ， 代 码 将 初 值 赋 给 几乎 所 有 的 指针 。 当 我 将 递归 函数 转换 成 答案 4 所 
描述 的 迭代 版 本 时 ， 运 行 时 间 几 乎 降低 为 原来 的 三 分 之 一 。 

我 的 第 二 反应 就 是 使 用 习题 5 中 的 方法 改变 存储 分 配 : 构造 函数 只 
分 配 一 个 具有 m 个 结 点 的 块 ，insert 根据 需要 使 用 这 些 空间 ;而 不 是 为 
每 次 插入 操作 分 配 一 个 新 结 点 。 这 样 束 在 如 下 两 个 不 同 的 方面 得 到 了 
改进 。 

附录 C 中 的 运行 时 间 开 销 模型 表明 ， 存 储 分 配 的 时 间 开 销 要 比 大 多 
数 简 单 运算 高 出 两 个 数量 级 。 我 们 把 m 次 这 样 的 高 开销 运算 减少 到 一 
次 。 

附录 C 中 的 空间 开销 模型 表明 ， 如 果 将 多 个 结 点 分 配 为 一 个 块 ， 每 
个 结 点 只 消耗 8 个 字 节 的 空间 (4 个 用 于 整数 ，4 个 用 于 指针 ) ，40 000 
个 结 点 消耗 320 KB 的 空间 ， 比 较 适 合 我 机 器 的 二 级 缓存 。 但 如 果 分 别 
为 这 些 结 点 分 配 空间 ， 每 个 结 点 都 要 消耗 48 字 节 的 空间 ， 总 共 要 消耗 
1.92 MB 的 空间 ， 超 出 了 二 级 缓存 的 容量 。 

在 另 一 个 具有 更 高 效 分 配器 的 系统 中 ， 消 除 递归 能 够 将 加 速 系数 
变 为 5， 而 改 成 单 次 分 配 却 只 能 加 速 10%。 与 大 多 数 代码 调 优 技巧 类 
似 ， 高 速 缓存 和 递归 消除 有 时 会 带 来 很 大 好 处 ， 有 时 却 没什么 作用 。 

数组 插入 算法 搜索 整个 序列 ， 以 找到 目标 值 的 合适 搬入 位 置 ， 然 
后 再 移动 比 它 大 的 值 。 链 表 插 入 算法 只 需要 完成 第 一 部 分 工作 ， 不 需 
要 进行 移动 。 既 然 链 表 只 完成 一 半 的 工作 ， 为 什么 却 需要 两 倍 的 时 间 
E? 部 分 原因 是 它 需 要 两 倍 的 内 存 : 大 链表 必须 将 8 字 节 的 结 点 读 入 高 
速 缓存 以 访问 4 字 克 的 整数 ; 另 一 部 分 原因 是 数组 访问 数据 时 具有 较 好 
的 预见 性 ， 而 链表 的 访问 模式 则 可 能 导致 在 内 存 空间 的 来 回 跳跃 。 


13.3 二 分 搜索 树 


31、 


作 : 


下 面 考 虑 支持 快速 搜索 和 揪 入 的 结构 。 下 图 给 出 了 依次 插入 整数 
41、59 和 26 后 的 二 分 搜索 树 : 


root: 


IntSetBST 类 定义 了 结 点 和 根 : 
private: 
int n,*v,vn; 
struct node { 
int val; 
node *left,*right; 
node(int i) { val = i; left = right = 0; } 
}; 
node *root; 


初始 化 该 树 的 时 候 将 根 设 为 空 ， 并 通过 调用 递归 函数 执行 其 他 操 


IntSetBST(int maxelements,int maxval) { root = 0; n = 0; } 
void insert(int t) { root = rinsert(root,t); } 
void report(int *x) { v = x; vn = 0; traverse(root); } 


插入 函数 遍历 这 棵 树 ， 直 到 找到 该 值 (搜索 终止 ) 或 在 整 棵 树 中 


都 没有 找到 该 值 (插入 该 结 点 ) : 


node *rinsert(p,t) 


if p == 0 
p = new node(t) 
n++ 
else if t < p->val 
p->left = rinsert(p->left,t) 
else if t > p->val 
p->right = rinsert(p->right,t) 
// do nothing if p->val == t 
return p 
由 于 在 我 们 的 应 用 中 ， 元 素 是 按 随机 顺序 插入 的 ， 所 以 不 用 考虑 
复杂 的 平衡 方案 。 (习题 1 表明 随机 集合 上 的 其 他 算法 会 得 到 高 度 不 平 
衡 的 树 。) 
RA [10] 首先 处 理 左 子 树 ， 接 着 输出 结 点 本 身 ， 最 后 处 理 右 
FH: 
void traverse(p) 
if p == 0 


return 


traverse(p->left) 
v[vn++] = p->val 
traverse(p->right) 
它 使 用 变量 vn 来 索引 回 量 v 中 下 一 个 可 用 元 素 。 
下 表 给 出 了 13.1 节 的 C++ 标准 模板 库 set 结 构 〈 在 我 机 器 上 的 实 
现 ) 、 二 分 搜索 树 以 及 下 一 市 将 要 介绍 的 其 他 几 种 结构 的 运行 时 间 ， 
最 大 的 整数 规模 固定 为 n = 108 。m 可 以 尽 可 能 地 增 大 ， 直 到 系统 内 存 
不 够 而 必须 使 用 磁盘 时 为 止 。 


集合 规模 Cm) 


结 构 1 000 000 5 000 000 10 000 000 
秒 MB Rb MB 秒 MB 
标准 模板 库 
二 分 搜索 树 
-分 搜索 树 * 
箱 
箱 ** 


位 问 量 8.36 52 


这 些 时 间 都 没有 包含 打印 输出 的 时 间 ， 打 印 输出 的 时 间 略 大 于 标 
准 模 板 库 实现 的 时 间 。 简 单 的 二 分 搜索 树 避 免 了 标准 模板 库 所 使 用 的 
复杂 的 平衡 方案 (标准 模板 库 规范 能 够 确保 在 最 坏 情 况 下 有 较 好 的 性 
fe) ， 因 此 稍微 快 一 些 ， 同 时 使 用 的 空间 也 少 一 些 。 标 准 模板 库 在 m = 
1 600 000 [1 时 内 存 就 不 够 了 ， 而 第 一 个 二 分 搜索 树 则 大 概 在 m =1 
900 000 时 内 存 不 够 。 标 记 为 “二 分 搜索 树 产 的 一 行 措 述 了 进行 儿 种 优化 
后 的 二 分 搜索 树 运 行情 况 。 最 重要 的 是 它 一 次 性 地 为 所 有 结 点 分 配 空 
间 (如 习题 5) ， 这 大 大 降低 了 树 的 空间 需求 ， 从 而 大 约 能 使 运行 时 间 
降低 三 分 之 一 。 该 代码 还 将 递归 转化 为 迭代 (如 习题 4) ， 并 使 用 了 习 
题 7 中 描述 的 哨兵 结 点 ， 这 了 又 使 速度 提高 了 约 25% 。 


13.4 用 于 整数 的 结构 


下 面 介 绍 最 后 两 个 利用 整数 特性 的 结构 。 位 向 量 在 第 1 章 就 介绍 过 
T, Plein a Ae AN ae: 

enum { BITSPERWORD = 32,SHIFT = 5,MASK = 0x1F }; 

int n,hi,*x; 

void set(int i) { x[i>>SHIFT] |= (1<<(i & MASK); } 

void clr(inti) { x[i>>SHIFT] &= ~(1<<(i & MASK)); } 


int test(int i) { return x[i>>SHIFT] & (1<<(i & MASK)); } 
构造 函数 为 数组 分 配 空间 并 将 所 有 位 都 置 为 0: 
IntSetBit Vec(maxelements,maxval) 
hi = maxval 
x = new int[1 + hi/BITSPERWORD] 
for i = [0,hi] 
clr(i) 
n=0 
习题 8 表明 通过 一 次 操作 多 位 数据 可 以 提高 这 一 速度 。 在 report 函 
数 中 也 可 以 进行 类 似 的 提速 : 
void report(v) 
j=0 
for i = [0,hi] 
if test(i) 
v[jt+t+] =i 
最 后 ，insert 贸 数 将 位 置 为 1 并 增加 n， 但 只 在 该 位 原先 为 0 的 情况 下 
才 这 样 做 : 
void insert(t) 
if test(t) 
return 
set(t) 
n++ 
上 一 节 的 表 说 明 如 果 最 大 值 n 足 够 小 使 得 位 同 量 能 狼 入 内 存 ， 那 么 
这 个 结构 的 效率 就 非常 高 (习题 8 讨论 如 何 使 其 更 高 效 ) 。 不 幸 的 是 ， 
如 果 n 是 23” ， 则 位 向 量 需 要 0.5 GB 的 内 存 。 
最 后 一 个 数据 结构 结合 了 链表 和 位 向 量 的 优点 。 它 在 箱 序列 中 放 
入 整数 ， 如 条 有 0~99 范 围 内 的 4 个 整数 ， 融 将 它们 放 在 4 个 箱 中 : 箱 0 


包含 0~24 范 围 内 的 整数 ， 箱 1 表示 25~-49 范 围 内 的 整数 ， 箱 2 表示 50~- 
74 内 的 整数 ， 箱 3 表示 75~99 内 的 整数 : 


4] 


| 26 | 31 | 59 | | 


这 mm 个 箱 可 以 看 作 一 种 散 列 ， 每 个 箱 中 的 整数 用 一 个 有 序 链表 表 
示 。 由 于 整数 是 均匀 分 布 的 ， 所 以 每 个 链表 的 期 望 长 度 都 为 1。 
该 结构 具有 如 下 私有 数据 : 
private: 
int n,bins,maxval; 
struct node{ 
int val; 
node *next; 
node(int v,node *p) { val = v; next = p; } 
}; 
node **bin,*sentinel; 
构造 函数 为 箱 数 组 和 哨兵 元 系 分 配 空间 ， 并 为 哨兵 屿 一 个 比较 大 
的 值 : 
IntSetBins(maxelements,pmaxval) 
bins = maxelements 
maxval = pmaxval 
bin = new node*[bins|] 
sentinel = new node(maxval,0) 
for i = [0,bins) 
bin[i] = sentinel 
n=0 


insert 函 数 需要 将 整数 t 放 入 合适 的 箱 中 。 直 观 的 映射 ttbins/maxval 
可 能 导致 数值 洲 出 〈 根 据 我 个 人 的 痛苦 经 验 ， 还 可 能 导致 调试 很 麻 
烦 ) ， 因 此 我 们 采用 下 述 代码 所 示 的 更 安全 的 映射 : 


void insert(t) 


i =t/(1 + maxval/bins) 
bin[i] = rinsert(bin[i],t) 
这 里 的 rinsert 类 似 于 前 面 用 于 链表 的 rinsert。 类 似 地 ，report 函 数 本 
质 上 也 是 把 对 应 的 链表 代码 按 顺序 应 用 到 了 每 个 箱 上 : 
void report(v) 
j=0 
for i = [0,bins) 
for (node *p = bin[i]; p!= sentinel; p = p->next) 
v[j++] = p->val 
上 一 节 的 表 说 明 箱 很 快 。 标 记 为 “ 箱 *” 的 一 行 插 述 了 做 出 在 初始 化 
阶段 为 所 有 结 点 分 配 空间 (如 习题 5) 的 修改 后 箱 的 运行 时 间 ， 修 改 后 
的 结构 大 约 只 需要 原先 四 分 之 一 的 空间 和 一 半 的 时 间 。 消 除 递归 可 以 
使 运行 时 间 进 一 步 缩 短 109% © 


13.5 原理 


i a aa 者 m 相 对 n 来 说 比较 小 ， 
这 些 结构 的 平均 性 能 如 下 表 所 示 (b 表 示 每 个 元 素 的 位 数 ) 。 


O( 每 个 操作 的 时 间 ) 


集合 表示 总 时 间 空间 
初始 化 insert report 
有 序数 组 O(m’) m 
有 序 链表 Olm’) 2m 
Z Xx O(m log m) 3m 
箱 O(m) 3m 


位 回 量 O(n) nib 


上 表 仅 列 出 了 几 种 简单 的 集合 表示 方法 。 管 案 10 提 到 了 其 他 一 些 
可 能 的 方法 ，15.1 节 插 述 了 用 于 搜索 单词 集合 的 数据 结构 。 

尽管 本 章 主要 讨论 用 于 表示 集合 的 数据 结构 ， 但 我 们 也 学 到 了 一 
些 在 许多 编程 任务 中 都 有 用 的 原理 。 

库 的 作用 。C++ 标 准 模板 库 提供 了 一 个 实现 起 来 很 容易 ， 并 且 维 扩 
和 扩展 也 比较 简单 的 通用 解决 方案 。 当 明 到 涉及 数据 结构 的 问题 时 ， 
我 们 的 第 一 反应 应 该 是 寻求 解决 问题 的 通用 工具 。 但 是 在 本 章 的 例子 
中 ， 专 用 的 代码 可 以 充分 利用 特定 问题 的 性 质 ， 大 大 提高 运行 速度 。 

空间 的 重要 性 。 在 13.2 节 我 们 看 到 ， 调 优 得 很 好 的 链表 虽然 完成 的 
工作 只 有 数组 的 一 半 ， 但 却 需要 两 倍 于 数组 的 时 间 。 为 什么 呢 ? 因为 
数组 中 每 个 元 素 所 占 的 内 存 只 有 链表 的 一 半 ， 而 且 数 组 是 顺序 访问 内 
存 的 。 在 13.3 世 我 们 看 到 ， 使 用 定制 的 内 存 分 配方 案 可 以 使 至 间 降 为 原 
来 的 三 分 之 一 ， 时 间 降 为 原来 的 一 半 。 当 所 需 的 内 存 超过 0.5 MB (我 
机 器 的 二 级 缓存 大 小 ) 并 接近 80 MB 〈 空 亲 内 存 大 小 ) 时 ， 运 行 时 间 显 
著 增 加 。 

代码 调 优 方法 。 最 显著 的 改进 就 古 用 只 分 配 一 个 较 大 内 存 块 的 方 
案 来 怕 换 通用 内 存 分 配 。 这 样 束 消除 了 很 多 开 铺 较 大 的 调用 ， 而 且 也 
使 空间 的 利用 更 加 有 效 。 将 递归 函数 重 写 为 从 代 版 本 可 以 使 链表 的 速 
度 提升 为 原来 的 3 倍 ， 但 只 能 使 箱 提速 10%。 对 大 多 数 结构 来 说 ， 引 入 
哨兵 可 以 获得 清晰 、 人 简单 的 代码 ， 并 缩短 运行 时 间 。 


13.6 习题 


1. 答 案 12.9 描 述 了 生成 有 序 随机 整数 集合 的 Bob Floyd 算 法 。 你 能 否 
用 本 章 的 几 种 IntSet 实 现 该 算法 ? 这 些 结构 在 Floyd 算 法 生成 的 非 随机 分 
布 上 性 能 如 何 ? 

2. 如 何 修改 简单 的 IntSet 接 口 使 其 更 健壮 ? 

3. 为 集合 类 增加 一 个 find 函数 ， 该 函数 用 于 判断 给 定 的 元 素 是 否 在 
集合 中 。 你 能 否 让 该 芳 数 比 insert 更 高 效 ? 

4. 为 链表 、 箱 和 二 分 搜索 树 的 递归 插入 画 数 重 写 相 应 的 迭代 版 本 ， 
并 度量 运行 时 间 的 差别 。 

5.9.1 节 和 管 案 9.2 描 述 了 Chris Van Wyk 如 何 通过 将 可 用 结 点 保存 在 
自己 的 结构 中 来 避免 多 次 调用 存储 分 配器 。 说 明 如 何 将 这 一 思想 应 用 
到 链表 、 箱 和 二 分 搜索 树 实现 的 IntSet 上 。 

6. 在 各 种 IntSet 实 现 上 对 下 面 的 代码 段 计 时 ， 能 够 发 现 什么 ? 

IntSetImp S(m,n); 


for (int i = 0; i < m; i++) 
S.insert(i); 

7. 我 们 的 数组 、 链 表 和 箱 都 使 用 了 哨兵 。 说 明 如 何 将 哨兵 用 于 二 分 
搜索 树 。 

8. 说 明 如 何 通 过 同时 在 很 多 位 上 进行 操作 来 加 速 位 同 量 的 初始 化 和 
输出 操作 。 这 种 方法 在 操作 char、short、int、long 或 某 种 其 他 类 型 时 是 
不 是 最 有 效 的 ? 

9. 说 明 如 何 通过 使 用 低 开 销 的 逻辑 移 位 奉 代 高 开销 的 除法 运算 来 对 
箱 进行 加 速 。 

10. 在 完成 类 似 于 生成 随机 数 的 任务 时 ， 可 以 使 用 其 他 哪些 数据 结 
构 来 表示 整数 集合 ? 


11. 实 现 一 个 最 快 的 完整 画 数 来 生成 一 个 有 序 的 随机 整数 数组 ， 不 
人 允许 重复 。 (可 以 使 用 前 面 介 绍 的 任何 接口 来 表示 和 集合 。) 


13.7 深入 阅读 


11.6 广 介绍 了 Knuth 和 Sedgewick 编 写 的 优秀 算法 教材 。 搜 索 是 
Knuth 的 The Art of Computer Programming , Volume 3: Sorting and 
Searching 一 书 第 6 章 (第 二 部 分 ) 的 主题 ， 也 是 Sedgewick 的 Alorithms 
一 书 第 四 部 分 的 主题 。 


13.8 一 个 实际 搜索 问题 (边栏 


本 章 给 出 的 简单 结构 为 我 们 研究 工业 级 的 数据 结构 提供 了 基础 。 
而 本 市 将 研究 Doug Mcllroy 于 1978 年 写 的 spell 程 序 中 用 于 表示 字典 的 著 
名 结构 。20 世 纪 80 年 代 所 写本 书 初稿 时 ， 我 使 用 Mcllroy 的 程序 对 各 章 
进行 了 拼写 检查 。 对 本 书 我 再 次 使 用 了 spell， 发 现 它 仍然 非常 有 用 。 
有 关 该 程序 的 详细 内 容 见 Mcllroy 发 表 于 IEEE Transactions on 
Communications 第 30 着 第 1 期 的 “Development of a spelling list” — X 

(1982 年 1 月 ， 第 91 页 一 第 99 页 ) 。 我 的 字典 将 “ 珠 现 * 定 义 为 “上 等 的 、 
精致 的 ”东西 ， 他 的 程序 是 符合 这 一 标准 的 。 

MecJlroy 面 对 的 第 一 个 问题 是 组 成 单词 列表 。 他 求 出 了 完整 版 字 暴 

(为 了 权威 性 ) 和 有 百 万 单词 的 布朗 大 学 英语 语料库 (为 了 时 效 性 ) 
的 交集 ， 这 是 一 个 合理 的 开端 ， 但 仍 有 许多 工作 需要 完成 。 

Mcllroy 组 成 单词 列表 的 方法 可 以 通过 如 何 处 理 专 有 名 词 来 说 明 ， 
因为 大 多 数字 典 都 没有 专 有 名 词 。 首 先是 人 名 : 大 型 电话 号 码 敌 中 最 
常见 的 1000 个 姓 、 男 孩 和 女孩 的 名 字 列 表 、 著 名 的 名 字 (如 Dijkstra 和 
Nixon) 以 及 Bulfinch 神 话 中 虚构 的 名 字 ; 发 现 了 Xerox 和 Texaco 这 样 的 
“拼写 错误 ”后 ， 他 把 财富 500 强 中 的 公司 名 也 考 不 进来 了 ; 出 版 公司 的 


名 字 在 参考 书目 中 出 现 得 很 多 ， 所 以 也 要 包含 进来 。 接 看 是 地 理 名 
词 : 国家 及 其 首都 、 州 及 其 首府 、 美 国 和 世界 上 最 大 的 100 个 城市 ， 此 
外 还 有 海洋、 行星 和 恒星 。 

他 还 添加 了 动 植物 的 昔 用 名 ， 以 及 化 学 、 解 谢 学 中 的 木 语 ， 当 然 
还 有 计算 机 术语 。 但 同时 他 也 注意 尽量 不 增加 太 多 : 不 考虑 有 效 但 生 
活 中 容易 误 拼 的 单词 (如 地 质 学 术语 cwm) ， 并 且 在 有 几 种 可 选 的 拼 
写 方 法 时 只 包含 一 个 (因此 只 有 traveling 而 没有 travelling) ° 

Mcllroy 的 守门 在 于 检查 实际 运行 时 spell 的 输出 ， 有 一 段 时 间 spell 
会 自动 将 输出 复制 一 份 发 送 给 他 ( 那 时 候 人 们 对 隐私 和 性 能 之 间 权 衡 
的 观点 与 现在 不 同 ) 。 当 发 现 问题 时 ， 他 尽 可 能 采用 最 具有 一 般 性 的 
解决 方法 。 这 样 最 终 得 到 了 75 000 个 精 选 单词 的 列表 : 它 包含 了 我 在 文 
档 中 可 能 用 到 的 大 多 数 单词 ， 至 今 仍 能 大 我 查 出 拼写 错误 。 

该 程序 使 用 词缀 分 析 从 单词 中 去 除 前 后 缀 ， 这 样 做 很 有 必要 也 非 
常 方便。 说 它 有 必要 是 因为 我 们 没有 全 部 英语 单词 的 列表 ， 拼 写 检查 
an BY PEE: 要 么 猜测 misrepresented 之 类 的 派生 词 ， 要 么 对 许多 
有 效 的 英语 单词 报错。 说 它 方 便 是 因为 词缀 分 析 能 够 缩小 字典 的 规 
模 。 

词缀 分 析 的 目标 是 去 掉 mis-、re-、pre- 和 -ed， 把 misrepresented 缩 
FIN sente (represent 并 不 表示 “再 次 出 现 ”，present 的 含义 也 不 是 “事先 
发 送 ?"，spell 利 用 这 样 的 巧合 来 缩小 字典 的 规模 。) 程序 的 表 中 包含 40 
条 前 弘法 则 和 30 条 后 级 法 则 ， 并 使 用 一 个 具有 1300 项 例外 的 “终止 列 
表 ” 来 终止 符合 词缀 法 则 但 并 不 正确 的 猜测 ， 例 如 ， 把 entend (intend 的 
误 拼 ) 理解 为 en-+tend。 这 一 分 析 把 75 000 单 词 的 列表 进一步 压缩 为 30 
000 单 词 。Mcllroy 的 程序 对 每 个 单词 执行 循环 ， 不 断 地 去 除 词缀 直至 找 
到 死 配 或 者 虽 没有 找到 匹配 但 已 无 词缀 (此 时 报错 ) 。 

粗略 的 分 析 表 明 ， 将 字典 放 在 内 存 中 是 很 重要 的 。Mcllroy 最 初 是 

只 有 64 KB 地 址 空间 的 PDP-11 上 编写 该 程序 的 ， 对 他 来 说 把 字典 放 在 


内 存 中 尤其 困难 。 他 在 文章 摘要 中 总 结 了 自己 的 空间 压缩 策略 : “去 除 
前 后 组 使 得 列表 的 大 小 不 到 原先 的 三 分 之 一 ， 散 列 法 又 去 掉 了 剩 下 的 
60%， 接 下 来 的 数据 压缩 再 次 节省 了 一 半 的 空间 。” 从 而 可 以 用 26 000 
个 16 位 的 计算 机 字 就 能 表示 75 000 个 英语 单词 (以 及 数量 跟 这 差不多 的 
单词 变形 ) 。 

Mcllroy 通 过 散 列 来 表示 30 000 个 英语 单词 ， 每 个 单词 用 27 位 表示 
(马上 我 们 会 看 到 为 什么 选 27) 。 下 面 以 一 个 小 型 单词 列表 为 例 说 明 
其 方案 : 


a list of five words 
第 一 种 散 列 法 用 到 了 一 个 几乎 和 单词 列表 一 样 大 的 n 元 散 列 表 以 及 
一 个 把 字符 串 映射 为 [0,n) 范 围 内 的 整数 的 散 列 钞 数 (15.1 市 将 看 到 这 样 
一 个 用 于 字符 串 的 散 列 函数 ) 。 表 的 第 j 项 指向 一 个 链表 ， 该 链表 包含 
所 有 向 列 到 i 的 字符 串 。 如 采用 空 日 单元 表示 空 列表 ， 且 散 列 函数 满足 
h(a)=2，hdlisD=1， 等 等 ， 那 么 相应 的 5 元 散 列 表 如 下 所 示 : 


of list a words 


gfe 
为 了 查找 单词 w， 我 们 对 第 h(w) 个 单元 指向 的 链表 进行 顺序 搜索 。 
第 二 种 方案 使 用 的 表 要 大 得 多 。 选 择 n=23 使 得 大 多 数 散 列 单 元 可 
能 只 包含 一 个 元 素 。 在 本 例 中 ，h(a)=13 且 hdlisD=5。 


list words a of five 


spell 程 序 中 取 n=22”(〈 约 1.34 亿 ) ， 几 乎 所 有 的 非 空 链表 都 仅 包含 
这 | S 


下 一 步 非常 大 胆 : Mcllroy 在 每 个 表 项 中 仅 存 放 一 个 位 ， 而 不 是 存 
放 早 词 链表 。 这 束 大 大 市 省 了 空间 ， 但 也 容易 出 错 。 下 图 使 用 和 前 面 
BOE, PHAZE A BOCAS AM ° 


为 了 查找 单词 w， 程 序 访 问 表 中 的 第 h(w) 位 。 如 果 该 位 为 0， 那 么 
程序 就 正确 地 报告 说 单词 w 不 在 表 中 ;如果 该 位 为 1， 程 序 就 认为 w 在 
表 中 。 有 时 候 ， 不 正确 的 单词 会 碰巧 散 列 到 有 效 位 ， 但 是 出 现 这 种 错 
误 的 概率 只 有 30 000/27” (21/4000) 。 因 此 ， 平 均 每 4000 个 不 正确 的 
单词 中 只 有 一 个 会 被 认为 有 效 。Mecllroy 经 过 观察 发 现 ， 毅 见 的 草稿 所 
包含 的 错误 很 少 超过 20 个 ， 所 以 程序 每 运行 100 次 最 多 只 出 现 1 次 这 种 


这 就 是 他 选择 27 的 原因 。 

使 用 n=22 位 的 字符 串 表示 散 列 表 将 消耗 超过 16 MB 的 空间 ， 因 
此 ， 程 序 仅 表示 值 为 1 的 位 。 在 上 面 的 例子 中 ， 程 序 存储 下 列 散 列 值 : 
5 10 13 18 22 

如 果 h(w) 存 在 ， 那 么 我 们 认为 单词 w 在 表 中 。 表 示 这 些 值 一 般 需 要 
30 000 个 27 位 的 计算 机 字 ， 但 是 McIlroy 机 器 的 地 址 空间 中 仅 有 32 000 个 
16 位 的 字 。 因 此 他 对 列表 排序 ， 并 使 用 可 变 长 码 来 表示 连续 散 列 值 之 
间 的 差 值 。 假 设 从 值 0 开始 ， 上 面 的 列表 可 压缩 为 : 

55354 

McIlroy 的 spell 程 序 平 均 使 用 13.6 位 来 表示 每 个 差 值 ， 这 样 惑 和 省 
下 了 几 百 个 额外 的 字 来 指向 压缩 列表 中 有 用 的 起 始 位 置 ， 从 而 加 快 顺 
序 搜索 。 这 样 我 们 就 得 到 一 个 64 KB 的 字典 ， 该 字典 不 仅 支持 快速 访 
问 ， 而 且 很 少 出 错 。 

前 面 我 们 考虑 了 spel 两 个 方面 的 性 能 : 它 输出 有 用 的 结果 ， 并 能 
适用 于 只 有 64 KB 地 址 空间 的 情况 。 此 外 ， 该 程序 的 速度 也 非常 快 。 


ni 


即便 在 最 初 编写 该 程序 的 老 机 器 上 ， 它 也 能 在 半分 钟 完成 对 10 页 文档 
的 拼写 检查 ， 检 查 与 本 书 容量 差不多 的 一 本 书 也 只 需要 约 10 分 钟 〈 当 
时 看 来 是 非常 快 的 。 因 为 该 字典 很 小 ， 能 够 从 磁盘 上 很 快 地 读 入 ， 

所 以 单个 单词 的 拼写 检查 只 需要 几 秒 钟 。 


第 14 章 HE 


本 章 主 要 介绍 “ 堆 ”， 我 们 将 使 用 这 一 数据 结构 解决 下 面 两 个 重要 
问题 。 

排序 。 采 用 堆 排 序 算法 对 n 元 数组 排序 ， 所 花 的 时 间 不 会 超过 O(n 
log n)， 而 且 只 需要 几 个 字 的 额外 空间 。 

优先 级 队列 。 堆 通过 插入 新 元 素 和 提取 最 小 元 素 这 两 种 操作 来 维 
护 元 素 集 合 ， 每 个 操作 所 需 的 时 间 都 为 O(log n)。 

对 于 这 两 个 问题 ， 用 堆 来 处 理 都 易于 编码 且 计 算 效 率 很 高 。 

本 章 采 用 目的 向 上 的 组 织 结构 ， 从 细 市 开始 ， 逐 步 过 渡 到 我 们 的 
正题 。 下 面 两 世 朱 述 了 堆 数据 结构 和 对 其 进行 操作 的 两 个 函数 ， 随 后 
的 两 世 使 用 这 些 工 具 解决 上 面 扣 到 的 问题 。 


14.1 结 


堆 是 用 来 表示 元 素 集 合 的 一 种 数据 结构 [12] ° 我 们 给 的 示例 中 挫 
用 于 表示 数值 ， 但 实际 上 堆 中 的 元 素 可 以 是 任何 有 序 类 型 。 下 面 是 由 
12 个 整数 构成 的 堆 : 


35 40 26 51 19 


RO Mite — SE, AEA EA APE IR ERY ° BB 
性 质 是 顺序 : 任何 结 点 的 值 都 小 于 或 等 于 其 子 结 点 的 值 。 这 意味 着 集 
合 的 最 小 元 素 位 于 根 结 点 〈 本 例 中 为 12) ， 但 是 它 没有 说 明 左 右 子 结 
点 的 相对 顺序 。 第 二 个 性 质 是 形状 ， 如 下 图 所 示 。 


LZ» 


用 文字 可 以 表述 为 : 具有 这 种 形状 性 质 的 二 叉 树 ， 最 多 在 两 层 上 
具有 叶 结 点 ， 其 中 最 故 层 的 叶 结 点 尽 可 能 地 靠 左 分 布 。 树 中 不 存在 空 
内 的 位 置 ， 如 果 它 有 n 个 结 点 ， 那 么 所 有 结 点 到 根 结 点 的 距离 都 不 超过 
logon ° 蕊 上 我 们 束 能 看 到 ， 这 两 个 性 质 具 有 足够 的 限制 性 ， 使 得 我 们 
能 够 找到 集合 中 的 最 小 元 素 ;， 但 也 具有 足够 的 灵活 性 ， 使 得 我 们 在 搬 
入 或 删除 一 个 元 素 之 后 能 够 有 效 地 重新 组 织 结构 。 

下 面 我 们 考虑 堆 的 实现 。 最 前 见 的 二 义 树 表示 方法 需要 使 用 记录 
和 指针 。 我 们 的 实现 仅 适 合 于 具有 形状 性 质 的 二 叉 树 ， 但 对 于 这 种 特 
殊 情况 非常 有 效 。 上 有 具有 形状 性 质 的 12 元 二 叉 树 可 以 用 一 个 12 元 的 数组 
x[1..12] 表 示 如 下 : 


x[1] 
x[2] x[3] 


x[4] x[5] x[6] x[7] 
y Di ge a P 
x{8] x[9] xf{10] x{11] x[12] 


注意 ， 堆 使 用 的 是 从 下 标 1 开始 的 数组 ，C 语 言 中 最 简单 的 方法 就 
古 声 明 x[n+]1] 并 浪费 元 素 x[0]。 在 这 个 隐 式 的 二 义 树 表 示 中 ， 根 结 点 位 
于 x[1]， 它 的 两 个 子 结 点 分 别 位 于 x[2] 和 x[3]， 依 此 类 推 。 树 中 常见 的 
函数 定义 如 下 : 


root = 1 


value(i) = x[i] 

leftchild(i) = 2*i 

rightchild(i) = 2*i+1 

parent(i)=i/2 

null(i) = (i< 1) or (i> n) 

n 元 的 隐 式 树 一 定 具 有 形状 性 质 ， 它 不 会 考虑 元 素 缺 失 的 情况 。 
下 图 给 出 了 一 个 12 元 的 堆 以 及 用 12 元 数组 表示 的 隐 式 树 实现 。 
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由 于 形状 性 质 是 通过 表示 方法 来 傈 证 的 ， 从 现在 开始 ， 我 们 约定 
“ 堆 ” 这 个 词 意味 着 任何 结 点 的 值 都 大 于 或 等 于 其 父 结 点 的 值 。 更 精确 
地 说 ， 如 来 


Vocien X[i2]<x[jj 
那么 数组 x[1..n] 就 具有 堆 性 质 。 回 忆 一 下 ， 整 数 除法 操作 “/” 会 向 下 
取 整 ， 所 以 4W2 和 5/2 都 是 2。 下 一 方 将 讨论 具有 堆 性 质 的 子 数组 x[l..u] 
( 它 具 有 形状 性 质 的 一 种 变 体 性 质 ) ， 我 们 可 以 从 数学 上 把 heap( 定 
V <icv X[i/2]<x[i] 


14.2 两 个 关键 函数 


本 世人 研究 两 个 玫 数 ， 这 两 个 图 效用 于 在 数组 某 一 端 不 再 具备 堆 性 
质 时 进行 调整 。 两 个 函数 都 很 有 效率 : 重新 组 织 一 个 n 元 的 堆 大 约 需要 
log n 步 。 考 虑 到 本 章 的 目 确 同 上 风格 ， 我 们 在 这 里 先 给 出 函数 定义 ， 
下 一 市 再 使 用 它们 。 

当 x[1..n-1] 古 堆 时 ， 在 x[n] 中 放置 一 个 任意 的 元 素 可 能 无 法 产生 
heap(1,n)。 我 们 使 用 siftup 范 数 来 重新 获得 堆 性 质 。 该 函数 的 名 字 束 表 
明了 其 策略 ， 它 尽 可 能 地 将 新 元 素 疝 上 委 选 ， 向 上 篇 选 是 通过 交换 该 
结 点 与 其 父 结 点 来 实现 的 。 (本 市 使 用 第 见 的 堆 定 义 来 规定 哪个 方 癌 
re lh] EET: 堆 的 根 为 x[1]， 位 于 树 的 项 部 ， 因 此 x[n] 位 于 数组 
的 底部 。) 下 图 (从 左 到 右 ) 演示 了 新 元 素 13 在 堆 中 向 上 筛选 ， 直 到 
到 达 合适 的 位 置 并 成 为 根 的 右 子 结 点 的 过 程 。 


12 12 12 
20 15 20 15 20 
A NR ge Ns A NS Se > 
23 17 22 29 23 22 29 23 15 
LS A ZA LN LN £ N AN 
35 40 26 51 19 35 40 26 51 19 17 35 40 26 51 19 17 


该 过 程 一 直 持 续 到 带 圈 的 结 点 大 于 等 于 其 父 结 点 (本 例 所 示 ) 或 
位 于 树 根 。 如 果 过 程 开 始 时 heap(1,n-1) 为 真 ， 那么 heap(1,n) 为 真 。 


有 了 这 一 直观 的 背景 ， 我 们 就 可 以 编写 代码 了 。 由 于 筛选 过 程 需 
要 一 个 循环 ， 所 以 我 们 从 循环 不 变 式 开始 。 在 上 图 中 ， 除 了 市 圈 结 点 
和 其 父 结 点 之 间 的 部 分 外 ， 树 的 所 有 其 他 地 方 都 具有 堆 性 质 。 如 果 i 是 
市 圈 结 点 的 下 标 ， 那 么 就 可 以 使 用 不 变 式 : 

loop 

/* invariant: heap(1,n) except perhaps 
between i and its parent */ 

由 于 开始 时 heap(1,n-1) 为 真 ， 因 此 可 以 通过 赋值 语句 i = n 初 始 化 循 
环 。 

循环 中 必须 检查 有 没有 完成 任务 〈 带 圈 的 结 点 要 么 位 于 堆 的 顶 
部 ， 要 么 大 于 或 等 于 它 的 父 结 点 ) ， 大 没有 则 继续 。 不 变 式 表明 ， 除 
了 结 点 i 和 其 父 结 点 之 间 的 部 分 可 能 不 具有 堆 性 质 外 ， 其 他 地 方 都 具有 
堆 性 质 。 如 果 i == 1 为 真 ， 那 么 结 点 没有 父 结 点 ， 从 而 所 有 地 方 都 具有 
堆 性 质 ， 因 此 可 以 终止 循环 。 当 结 点 i 有 父 结 护 时， 可 以 通过 峰值 语句 
p==i/2 使 p 成 为 父 结 点 的 下 标 。 如 采 x[p]<x[ 训 ， 那 么 所 有 地 方 都 具有 堆 性 
质 ， 循 环 可 以 终止 。 

另 一 方面 ， 如 果 结 点 i 和 其 父 结 点 之 间 的 顺序 不 对 ， 那 么 我 们 交换 
x[ij 和 x[p]。 这 一 步骤 如 下 图 所 示 ， 其 中 的 关键 字 是 单个 字母 ， 结 点 十 
A ° 


b 2 
交换 之 前 : a Al b Be 交换 之 后 : 所 有 结 点 到 
顺序 不 对 c 的 顺序 都 正确 了 pa 
de de 
交换 之 后 ， 所 有 5 个 元 素 的 顺序 都 是 正确 的 : 因为 b 原 先 在 堆 中 就 
位 于 较 高 层 [13] 所 以 b<d 且 b<e; 因为 测试 条 件 x[p]<xr[j 不 满足 ， 所 以 
a<b; 结合 a<b 和 b<c 可 以 得 到 a<c。 这 就 确保 了 除了 结 点 p 和 其 父 结 点 


之 间 的 部 分 外 ， 其 他 地 方 都 具有 堆 性 质 ， 因 此 我 们 通过 赋值 语句 i =p 重 
新 获得 不 变 式 。 
这 个 过 程 给 出 在 下 面 的 siftup 代 码 中 ， 它 的 运行 时 间 和 log n 成 正 
tk, AWER Glog n 层 。 
void siftup(n) 
pre n > 0 && heap(1,n-1) 
post heap(1,n) 
i=n 
loop 
/* invariant: heap(1,n) except perhaps 
between i and its parent */ 
ifi==1 
break 
p=i/2 
if x[p] <= x[i] 
break 
swap(p,i) 
L=p 

IRE 4 章 一 样 , “pre” 和 “post" 开 头 的 两 行 特征 化 该 函数 : ORE 
数 调用 之 前 前 置 条 件 为 真 ， 那 么 在 函数 返回 之 后 后 置 条 件 也 为 真 。 

下 面 考虑 siftdown， 当 x[1..n] 是 一 个 堆 时 ， 给 x[1] 分 配 一 个 新 值得 到 
heap(2,n)， 然 后 用 函数 siftdown 使 得 heap(1,n) 为 真 。 该 加 数 将 x[1] 同 下 沛 
选 ， 直 到 它 没 有 子 结 扣 或 小 于 等 于 它 的 子 结 点 。 下 图 给 出 了 18 在 堆 中 
癌 下 沛 先 直 到 最 后 小 于 它 的 单个 子 结 扣 19 的 过 程 。 
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TAEMA, FETA AR BBN o A ime EBC R: 将 顺序 不 
对 的 元 素 和 比 它 小 的 子 结 点 交换 。 
上 图 显示 了 siftdown 循 环 的 不 变 式 : 除了 市 圈 结 点 和 它 的 子 结 扩 之 
间 的 部 分 外 ， 其 他 部 分 都 有 具有 堆 性 质 。 
loop 
/* invariant: heap(1,n) except perhaps between 
i and its (0,1 or 2) children */ 
这 个 循环 和 siftup 的 循环 非 第 相似。 站 先 检查 结 点 i 是 否 具 有 子 结 
， 如 果 没 有 子 结 扩 就 终止 循环 。 下 面 束 涉及 比较 复杂 的 部 分 了 : 如 
结 点 i 具 有 子 结 点 ， BADR RCE NRA LA 点 的 下 标 。 最 
， 或 者 满足 x[i]<x[c] 终 止 循环 ， 或 者 通过 交换 x[i] 和 x[c] 并 赋值 i = c 继 
进行 到 循环 底部 。 
void siftdown(n) 
pre heap(2,n) && n >= 0 
post heap(1,n) 
i=1 
loop 


Set 


/* invariant: heap(1,n) except perhaps between i and its (0,1 or 2) 
children */ 
c= 2#j 
ifc>n 
break 


/* c is the left child of i */ 
if c+1 <=n 
/* c+1 is the right child of i */if x[c+1] < x[c] 
c++ 
/* c is the lesser child of i */ 
if xli] <= x[c] 
break 
swap(c,i) 
i=c 
与 siftup 类 似 的 实例 分 析 表 明 ， 交 换 操 作 使 得 除了 结 点 c 和 它 的 子 结 
点 之 间 的 部 分 外 ， 其 他 所 有 地 方 都 具有 堆 性 质 。 女 siftup 类 似 ， 这 个 函 


数 所 需 的 时 间 和 log n 成 正比 ， 因 为 它 在 堆 的 每 层 的 计算 量 都 是 固定 
的 。 


14.3 优先 级 队列 


每 个 数据 结构 都 可 以 从 两 方面 看 。 从 外 部 来 看 ， 它 的 规范 说 明了 
它 做 什么 一 一 队列 通过 insert 和 extract 探 作 来 维护 元 素 序 列 。 从 内 部 来 
看 ， 它 的 实现 说 明了 它 如 何 做 一 一 队列 可 以 使 用 数组 或 链表 来 实现 。 
本 节 首 先 说 明 优 先 级 队列 的 抽象 性 质 ， earl 

优先 级 队列 操作 一 个 初始 为 空 [14] RRA, WRAS ° insert 
数 在 集合 中 插入 一 个 新 元 素 ， 可 以 在 前 置 条 KEEA RIF P BE H 
定义 如 下 : 

void insert(t) 


pre |S| < maxsize 


post current S = original S U {t} 


洲 数 extractmin 删 除 集 合 中 最 小 的 元 素 ， 并 通过 单个 参数 t 返 回 该 
值 。 

int extractmin() 

pre |S| > 0 

post original S = current S U {result} 

&& result = min(original S) 

当然 ， 可 以 修改 这 个 函数 以 产生 最 大 元 素 ， 或 总 排序 下 的 任何 极 
值 。 

可 以 使 用 模板 (指定 队列 中 元 素 的 类 型 为 T) 定义 一 个 C++ 类 来 完 
成 这 一 任务 : 

template<class T> 


class priqueue { 


public: 
priqueue(int maxsize); // init set S to empty 
void insert(T t); // add t to S 
T extractmin(); // return smallest in S 
}: 


ICRU INEZ DLA PAB AR AS ° BRIE ARS AT LAE AE — 
种 结构 来 表示 一 组 任务 ， 按 任意 顺序 插入 它们 ， 然 后 进行 提取 : 

priqueue<Task> queue; 

在 模拟 离散 事件 时 ， 可 以 把 事件 的 时 间作 为 元 素 。 模 拟 循 环 提取 
下 一 个 事件 ， 并 且 可 能 在 队列 中 添加 更 多 的 事件 : 

priqueue<Event> eventqueue; 

这 两 个 应 用 都 需要 使 用 集合 元 素 之 外 的 信息 来 扩展 基本 的 优先 级 
队列 。 在 下 面 的 讨论 中 将 忽略 “实现 细节 ”， 但 是 C++ 类 通 肖 能 很 好 地 处 
理 。 


显然 ， 我 们 可 以 使 用 数组 或 链表 之 类 的 顺序 结构 来 实现 优先 级 队 
列 。 如 果 序 列 是 有 序 的 ， 那 么 提取 最 小 元 素 非 常 答 单 ， 但 插入 新 元 素 
比较 困难 ; 在 无 序 的 结构 中 情况 则 相反 。 下 表 比 较 了 n 元 集合 上 几 种 结 
构 的 性 能 。 


运行 时 间 
数据 结构 l l - 
ETE 
有 序 序列 O(n) O(1) O(n’) 
HE O(log n) O(log n) O(n log n) 


无 序 序列 O(1) O(n’) 


尽管 二 分 搜索 能 够 在 O(log n) 时 间 内 找到 新 元 素 的 位 置 ， 但 是 移动 
已 有 的 元 素 给 新 元 素 腾空 间 却 需要 O(n) 步 。 如 果 你 坪 记 了 O(m? ) 算 法 和 
O(n log m 算 法 之 间 的 区 别 ， 请 回顾 一 下 8.5 玉 : 当 n 为 100 万 时 ， 这 两 种 
算法 的 程序 运行 时 间 分 别 为 3 小 时 和 1 秒 。 

优先 级 队列 的 堆 实 现 提供 了 两 种 顺序 结构 之 间 的 折 中 方案 。 它 使 
用 具有 堆 性 质 的 数组 x[1..n] 表 示 n 元 集合 ， 其 中 x 在 C 或 C++ 中 声明 为 
x[maxsize+] (] 我 们 不 使 用 x[0]) 。 可 以 通过 赋值 n = 0 将 集合 初始 化 为 
空 。 插 入 新 元 隶 时 将 n 加 1， 然 后 将 新 元 素 放置 在 xm 处 。 这 样 我 们 殉 具 
备 了 调用 siftup 的 前 提 : heap(1,n-1)。 因此， 插入 操作 的 代码 如 下 所 
示 : 

void insert(t) 


O(n) 


if n >= maxsize 
/* report error */ 
n++ 
X[n] =t 
/* heap(1,n-1) */ 


siftup(n) 
/* heap(1,n) */ 

& Wextractminea KIM RRA PN )ITR, Ala AAA 
使 其 具有 堆 性 质 。 由 于 该 数组 是 一 个 堆 ， 所 以 最 小 元 素 位 于 x[1]， 集 合 
中 剩 下 的 n-1 个 元 素 位 于 x[2.m 中 。 新 数组 也 具有 堆 性 质 ， 通 过 两 步 可 
重新 得 到 heap(1,n)。 第 一 步 ， 将 x[n] 移 动 到 x[1], 并 将 n 减 1， 这 样 集合 
的 元 素 就 都 在 x[1l..n] 中 了 ， 并 且 heap(2,n) 为 真 ; 第 二 步 ， 调 用 
siftdown ° {USSF ai fal E : 


int extractmin() 


ifn<1 
/* report error */ 
t=x[1] 
x[1] = x[n--] 
/* heap(2,n) */ 
siftdown(n) 
/* heap(1,n) */ 
return t 
当 将 insert 和 extractmin 应 用 到 包含 n 个 元 素 的 堆 时 ， 都 需要 OUog n) 
的 时 间 。 
下 面 是 优先 级 队列 的 完整 C++ 实现 : 
template<class T> 
class priqueue { 
private: 
int n,maxsize; 
TER 
void swap(int i,int j) 
{ T t= xli]; xli] = xj]; x[j] = t; } 


public: 
priqueue(int m) 
{ maxsize = m; 
x = new T[maxsize+1]; 
n=0; 
void insert(T t) 
{ int i,p; 
x[++n] = t; 
for (i =n; i> 1 && x[p=i/2] > x[i]; i = p) 
swap(P,1); 
} 
T extractmin(){ 
int i,c; 
Tt=x[1]; 
x[1] = x[n--]; 
for (i = 1; (c = 2*i) <= n;i =c) { 
if (c+1 <= n && x[c+1] < x[c]) 
c++; 
if (xLi] <= x[c]) 
break; 
swap(C,1); 
} 


return t; 


这 个 简单 的 接口 程序 没有 提供 错误 检查 机 制 和 析 构 函数 ， 但 是 却 
简 活 地 表达 了 算法 的 本 质 内 容 。 相 比 于 伪 代 码 的 元 长 风格 而 言 ， 上 述 
精炼 的 代码 走 的 是 画 一 个 极 问 。 


14.4 一 种 排序 算法 
优先 级 队列 提供 了 一 种 简单 的 向 量 排序 算法 : 首先 在 优先 级 队列 
中 依次 插入 每 个 元 素 ， 然 后 按 序 删除 它们 。 在 C++ 中 使 用 priqueue 类 进 
行 编码 非常 简单 : 


template<class 工 > 


void pgsort(T v[],int n) 
{ priqueue<T> pq(n); 
int i; 
for (i = 0; i < n; i++) 
pq.insert(v[i]); 
for (i = 0; i < n; i++) 
vLi] = pq.extractmin(); 
} 
ni 次 insert 和 extractmin 操 作 在 最 坏 情 况 下 的 开销 是 O(n log n)， 优 于 
第 11 革 中 快速 排序 的 最 坏 情 况 开 销 O(n? )。 不 笠 的 是 ， 堆 使 用 的 数组 
x[0..n] 需 要 n+1 个 字 的 额外 内 存 。 
现在 来 看 看 堆 排 序 ， 它 改进 了 上 面 的 方法 。 堆 排序 算法 的 代码 更 
少 ; 由 于 不 需要 辅助 数组 ， 因 此 使 用 的 空间 更 少 ， 此 外 ， 需 要 的 时 间 
也 更 少 。 根 据 该 算法 的 目的 ， 假 设 我 们 已 经 修改 了 siftup 和 siftdown, 
使 它们 能 够 操作 最 大 元 杂 在 顶部 的 堆 (通过 交换 “<” 和 “>” 和 从 号 很 容易 
就 能 实现 这 一 点 ) 。 


以 前 的 简单 算法 使 用 两 个 数组 ， 一 个 用 于 优先 级 队列 ， 男 一 个 用 
于 行 排序 的 元 素 。 堆 排序 仅 使 用 一 个 数组 ， 因 而 节省 了 空间 。 单 个 数 
组 x 同 时 表示 两 种 抽象 结构 : 左边 是 堆 ， 右 边 是 元 素 序列 。 元 素 的 初始 
顺序 是 随意 的 ， 最 终 则 是 有 序 的 。 下 图 给 出 了 数组 x 的 演变 过 程 : 数组 
是 水 平 绘制 的 ， 垂 直方 向 表示 时 间 。 


AN 步骤 0 
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堆 排 序 算 法 是 一 个 两 阶段 的 过 程 ， 前 n 步 将 数组 建立 到 堆 中 ， 后 n 
步 按 降序 提取 元 素 并 从 右 到 左 建立 最 终 的 有 序 序列 。 
第 一 阶段 建立 堆 ， 其 不 变 式 如 下 所 示 : 


l i n 
下 面 这 段 代 码 通过 将 元 素 在 数组 中 辐 上 筛选 来 建立 heap(1n): 


for i = [2,n] 


/* invariant: heap(1,i-1) */ 


siftup(i) 
/* heap(1,i) */ 
第 二 阶段 使 用 堆 来 建立 有 序 序列 ， 其 不 变 式 如 下 所 示 : 


两 个 操作 的 循环 体 都 始终 保持 不 变 式 为 真 。 由 于 x[1] 是 前 i 个 元 素 
中 最 大 的 ， 将 它 和 x 自 交 换 就 使 有 序 序列 多 了 一 个 元 素 。 这 一 交换 影响 
到 了 堆 性 质 ， 我 们 可 以 通过 把 新 的 顶部 元 素 疝 下 往 选 来 重新 获得 堆 性 
质 。 第 二 阶段 的 代码 如 下 所 示 : 

for (i = n; i >= 2; i--) 

/* heap(1,i) && sorted(it+1,n) && x[1..i] <= x[i+1..n] */swap(1,i) 
/* heap(2,i-1) && sorted(i,n) && x[1..i-1] <= x[i..n] */siftdown(i-1) 
/* heap(1,i-1) && sorted(i,n) && x[1..i-1] <= x[i..n] */ 

有 了 前 面 建立 的 函数 ， 完 整 的 堆 排 序 算法 仅 需 要 5 行 代码 ; 

for i = [2,n] 

siftup(i) 


for (i = n; i >= 2; i--) 

swap(1,i) 
siftdown(i-1) 

由 于 该 算法 使 用 了 n-1 次 siftup 和 n-1 次 siftdown 操 作 ， 而 每 次 操作 的 
开销 最 多 为 O(log n)， 因 此 即使 在 最 坏 情 况 下 ， 该 算法 的 运行 时 间 也 是 
O(n log n) ° 

答案 2 和 答案 3 描述 了 几 种 用 来 加 速 (同时 也 简化 ， 堆 排序 算法 的 
方法 。 虽 然 堆 排序 保证 了 最 坏 情况 下 的 Oo log n) 性 能 ， 但 对 于 常见 的 
输入 数据 ， 最 快 的 堆 排序 通常 也 比 11.2 节 的 简单 快速 排序 慢 。 


14.5 原理 


高 效 性 。 形 状 性 质保 证 了 堆 中 所 有 结 点 和 根 结 点 之 间 相差 的 层 数 
T logon 之 内 。 由 于 树 是 平衡 的 ， 所 以 函数 siftup 和 siftdown 的 运行 效 
率 很 高 。 堆 排序 通过 在 同一 个 实现 数组 中 包含 两 种 抽象 结构 ( 堆 和 元 
素 序列 ) 来 避免 使 用 额外 的 空间 。 

正确 性 。 为 循环 编写 代码 之 前 首先 要 精确 地 说 出 它 的 不 变 式 ， 循 
环 体 执行 过 程 中 始终 保持 不 变 式 为 真 。 形 状 和 顺序 性 质 是 男 一 种 不 变 
Th: 万 们 是 堆 数据 结构 的 不 变性 质 。 操 作 堆 的 男 数 可 以 假设 其 开始 运 
行 时 上 述 性 质 为 真 ， 并 且 必 须 确 你 运行 结束 时 这 些 性 质 仍 为 真 。 

抽象 性 。 好 的 工程 师 能 够 分 清 某 个 组 件 做 什么 (用户 看 到 的 抽象 
功能 ) 和 如 何 做 ( 黑 盒 实现 ) 之 间 的 差别 。 本 章 将 黑 盒 按 两 种 不 同 的 
方式 打包 : 过 程 抽 象 和 抽象 数据 类 型 。 

过 程 抽象 。 你 可 以 在 不 知道 排序 函数 实现 细节 的 情况 下 用 它 来 排 
序数 组 ， 即 将 排序 视 为 单个 操作 。 画 数 siftup 和 siftdown 提 供 了 类 似 级 别 
的 抽象 : 在 建立 优 移 级 队列 和 堆 排 序 算法 时 ， 我 们 并 不 关心 函数 是 如 
何 工 作 的 ， 但 是 我 们 知道 它们 做 了 什么 工作 〈 用 于 在 数组 某 一 端 不 再 
具备 堆 性 质 时 进行 调整 ) 。 良 好 的 工程 设计 使 得 我 们 可 以 只 对 这 些 黑 
盒 组 件 定义 一 次 ， 然 后 使 用 它们 组 成 两 种 不 同类 型 的 工具 。 

抽象 数据 类 型 。 数 据 类 型 做 什么 是 由 它 的 方法 和 方法 的 规范 给 出 
的 ， 而 如 何 做 则 是 由 具体 实现 决定 的 。 我 们 可 以 仅仅 使 用 本 章 的 
C++ 类 priqueue 或 上 一 章 的 C++ 类 IntSet 的 规范 来 推断 它们 的 正确 性 ， 
当然 它们 的 具体 实现 肯定 会 对 程序 的 性 能 有 影响 。 


14.6 习题 


1. 实 现 基于 堆 的 优先 级 队列 ， 尽 可 能 地 提高 运行 速度 。n 取 何 值 时 
比 顺 序 结构 快 ? 
2. 修 改 siftdown 使 之 满足 下 列 规 范 。 


void siftdown(l,u) 
pre heap(I+1,u) 
post heap(l,u) 

代码 的 运行 时 间 是 多 少 ? 说 明 如 何 用 它 来 在 O(n) 时 间 内 构造 一 个 n 
元 扒 ， 从 而 得 到 一 个 代码 量 更 少 且 更 快速 的 堆 排 序 算法 。 

3. 实 现 一 个 尽 可 能 快 的 堆 排序 程序 。 你 的 程序 与 11.3 节 表格 给 出 的 
排序 算法 相 比 性 能 如 何 ? 

4. 如 何 使 用 优先 级 队列 的 堆 实现 解决 下 列 问题 ? 当 输 入 有 序 时 ， 你 
的 答案 有 什么 变化 ? 

a. 构 建 赫 夫 曼 码 〈 绝 大 多 数 关 于 信息 理论 的 书 和 许多 关于 数据 结构 
的 书 都 会 讨论 这 种 编码 ) 。 

b. 计 算 大 型 浮 点 数 集合 的 和 。 

c. 在 存 有 10 亿 个 数 的 文件 中 找 出 最 大 的 100 万 个 数 。 

d. 将 多 个 较 小 的 有 序 文件 归并 为 一 个 较 大 的 有 序 文件 (在 实现 1.3 
节 那 样 的 基于 磁盘 的 归并 排序 程序 时 会 出 现 这 种 问题 ) 。 

5. 装 箱 问题 需要 将 n 个 权 值 (每 个 都 介 于 0 和 1 之 间 ) 分 配给 最 少数 
目的 单位 容量 箱 。 解 决 这 一 问题 的 * 首 次 适应 ”局 发 式 方法 按 序 考 虑 权 
值 ， 将 每 个 权 值 放 到 第 一 个 合适 的 箱 中 〈 按 升序 扫描 箱 ) ° David 
Johnson 在 他 的 MIT 论 文中 指出 ， 一 种 类 似 于 堆 的 结构 能 够 在 O(n log n) 
时 间 内 实现 该 局 发 式 方法 。 说 明 如 何 实现 。 

6. 人 磁盘 上 顺序 文件 的 常见 实现 让 每 个 块 都 指向 它 的 后 继 块 ， 后 继 块 
可 以 是 磁 副 上 的 任意 一 个 块 。 该 方法 要 求 写 入 一 个 块 (因为 文件 已 经 
写 在 硬盘 上 了 ) 、 读 取 文 件 的 第 一 个 块 以 及 读 完 文件 的 第 i-1 个 块 后 再 
读 第 i 个 块 所 需 的 时 间 都 是 同一 个 常数 ， 从 而 从 头 开始 读 第 i 个 块 所 需 的 
时 间 跟 i 成 正比 。Ed McCreight 在 施乐 由 洛 阿 尔 托 人 研究 中 心 设计 人 磁盘 控 
制 絮 时 发 现 ， 只 要 为 每 个 结 点 增加 一 个 额外 的 指针 ， 束 能 获得 其 他 所 
有 的 性 质 ， 但 却 使 读 取 第 个 块 的 时 间 正 比 于 log i。 如 何 实现 这 一 点 ? 


解释 一 下 这 里 读 取 第 i 个 块 的 算法 与 习题 4.9 中 在 正比 于 log i 的 时 间 内 计 
算 i 次 虹 的 代码 有 什么 共同 点 。 

7. 在 一 些 计算 机 上 ， 除 以 2 以 求 出 当前 范围 的 中 点 是 二 分 搜索 程序 
中 开销 最 大 的 部 分 。 假 设 我 们 已 经 正确 构建 了 待 搜索 的 数组 ， 说 明 如 
何 使 用 乘 以 2 的 操作 来 替代 除法 。 给 出 建立 并 搜索 这 样 一 个 数组 的 算 
法 。 

8. 有 哪些 方法 可 以 较 好 地 实现 表示 [0 区 范围 内 整数 的 优先 级 队列 

(队列 的 平均 规模 远 远 大 于 k) ? 

9. 证 明 在 优先 级 队列 的 堆 实 现 中 ，insert 和 extractmin 的 对 数 运 行 时 
间 都 在 一 个 最 佳 常 数 因 子 范 围 内 。 

10. 体 育 爱 好 者 都 很 熟悉 堆 的 基本 观点 。 假 设 在 半 决 赛 中 ，Brian 击 
败 了 Al，Lynn 击 败 了 Peter, 并 且 在 决赛 中 Lynn 战 胜 了 Brian， 这 些 结果 通 
党 可 绘制 为 : 


Lynn 
Lynn Brian 
Peter Lynn Brian Al 


P 
征 无 
Dl 


的 


这 样 的 “ 锅 标 赛 树 ”在 网 球 锦标 赛 和 足球 、 棒 球 、 篮 球 的 季 后 
很 常见 。 假 设 比赛 的 结果 是 一 致 的 《在 体育 运动 中 这 种 假设 通常 
效 的 ) [15] ， 那 么 2 号 种 子 进入 决赛 的 概率 有 多 大 ? 请 根据 运动 
赛 前 排名 来 安排 比赛 的 场次 。 

11. 在 C++ 标准 模板 库 中 如 何 实现 堆 、 优 和 级 队列 和 堆 排序 ? 


` 
) 


14.7 深入 


11.6 万 介绍 了 Knuth 和 Sedgewick 编写 的 优秀 算法 教材 。Knuth 的 
The Art of Computer Programming, Volume 3: Sorting and Searching 一 
书 的 5.2.3 贡 描述 了 堆 和 挫 排 序 ，Sedgewick 的 Algorithms 一 书 的 第 9 章 描 
述 了 优先 级 队列 和 堆 排 序 。 


第 15 章 字符 串 


我 们 生活 在 一 个 字符 串 的 世界 里 。 位 字符 串 构 成 了 整数 和 浮 点 
DM, DEPART RSS, FAS BMA Bil, KFP 
可 以 形成 网 页 ， 更 长 的 字符 串 则 形成 书 。 在 遗传 学 家 的 数据 库 和 本 书 
众多 读者 的 细胞 内 ， 存 在 着 由 字母 A、C、G 和 T 表 示 的 极 长 的 字符 
$o 

可 以 用 程序 对 这 些 字 符 串 执行 各 种 各 样 的 操作 ， 例 如 排序 、 统 
计 、 搜 索 以 及 分 析 它 们 以 区 分 不 同 的 模式 等 。 本 章 通过 一 些 有 关 字 符 
串 的 经 典 问题 来 讨论 这 些 操作 。 


15.1 单词 


我 们 的 第 一 个 问题 是 为 文档 中 包含 的 单词 生成 一 个 列表 。 AJL 
百 本 书 作为 这 样 一 个 程序 的 输入 ， 我 们 就 能 得 到 字典 中 单词 列表 的 雏 
形 。) 但 是 ， 什 么 才 是 单词 呢 ? 我们 采用 了 如 下 的 简单 定义 :， 单词 是 
包含 在 空白 中 的 字符 序列 ， 但 是 这 样 一 来 ， 网 页 上 将 包含 很 多 像 
“<html>”、“<body>” 和 “&mnbsp;” 这 样 的 “单词 ”。 习题 1 讨论 如 何 避 免 这 
样 的 问题 。 

我 们 的 第 一 个 C++ 程序 用 到 了 C++ 标准 模板 库 中 的 sets 和 strings， 由 
答案 1.1 中 的 程序 稍 做 修改 而 得 : 


int main(void) 
{ set <string> S; 
set <string>::iterator j; 
string t; 
while (cin >> t) 
S.insert(t); 
for (j = S.beginQ); j != S.end(); ++j) 
cout << *j << "\n"; 
return 0; 
} 
while 循 环 读 取 输 入 并 将 每 个 单词 插入 集合 S (根据 标准 模板 库 规 
范 ， 忽 略 重复 的 单词 )， 然 后 for 循 环 欠 代 整 个 集合 ， 并 按 排 好 的 顺序 输 
出 单词 。 该 程序 编写 得 非常 优雅 ， 也 相当 高 效 〈 马 上 将 详细 讨论 这 一 
Rs 
接 下 来 的 问题 是 对 文档 中 每 个 单词 的 出 现 次数 进 行 统计 。 下 面 给 
出 了 和 詹姆斯 一 世 钦定 版 《圣经 》 中 出 现 频率 最 高 的 21 个 单词 ， 按 数值 
递减 的 次 序 排列 ， 并 对 齐 为 3 列 显示 以 节省 空间 : 


the 62053 shall 9756 they 6890 
and 38546 he 9506 be 6672 

of 34375 unto 8929 is 6595 

to 13352 I 8699 with 5949 
And 12734 his 8352 not 5840 
that 12428 a 7940 all 5238 

in 12154 for 7139 thou 4629 


该 书 的 789 616 个 单词 中 大 概 有 8% 是 单词 “the” (而 在 我 们 这 个 句子 
中 ， 比 例 为 16%) [16]。 根 据 我 们 的 单词 定义 ，“and” 和 “And” 需 要 分 
别 计数 。 


上 述 统 计 是 通过 下 面 的 C++ 程序 实现 的 ， 该 程序 使 用 标准 模板 库 中 
的 map 将 整数 计数 与 每 个 字符 串联 系 起 来 : 
int main(void) 
{ map <string,int> M; 
map <string,int>::iterator j; 
string t; 
while (cin >> t) 
M[t}++; 
for (j = M.beginQ); j != M.end(); ++j) 
cout << j->first << " " << j->second << "\n"; 
return 0; 
} 
while 语 句 将 每 个 单词 t 插 入 映射 M， 并 对 相关 的 计数 器 (初始 化 为 
0) 增 1。for 语 句 按 排 好 的 顺序 遍历 单词 ， 并 打印 出 每 个 单词 (first) 及 
其 计数 (second) 。 
这 段 C++ 代 码 直 白 、 位 滞 而 且 运 行 起 来 出 奇 地 快 。 在 我 的 机 器 上 ， 
它 处 理 《 圣 经 》 只 需要 7.6 秒 ， 其 中 读 取 操 作 约 需要 2.4 秒 ， 插 入 操作 约 
需要 4.9 秒 ， 输 出 操作 约 需 要 0.3 秒 。 
为 了 减少 处 理 时 间 ， 我 们 可 以 建立 自己 的 散 列 表 ， 散 列表 中 的 结 
点 包含 指向 单词 的 指针 、 单 词 出 现 频率 以 及 指向 表 中 下 一 个 结 点 的 指 
针 。 下 面 给 出 了 插入 “in”、“the* 和 “in” 之 后 的 散 列 表 ， 两 个 字符 串 罕见 
地 都 散 列 到 了 1: 


我 们 用 如 下 的 C 结 构 实 现 散 列表 : 
typedef struct node *nodeptr; 
typedef struct node { 

char *word; 

int count; 

nodeptr next; 


} node; 


即便 在 我 们 的 宽松 “单词 ”定义 下 ，《 圣 经 》 中 也 只 有 29 131 个 不 同 


的 单词 。 我 们 采用 传统 的 办 法 ， 用 跟 29 131 最 接近 的 质数 作为 散 列 表 的 
大 小 ， 并 将 乘 数 定义 为 31: 


#define NHASH 29989 
#define MULT 31 
nodeptr bin[NHASH}]; 
散 列 函数 把 每 个 字符 串 映 喘 为 一 个 小 于 NHASH 的 正 整数 : 
unsigned int hash(char *p) 

unsigned int h = 0 

for (; *p; p++) 

h= MULT * h + *p 

return h % NHASH 

其 中 使 用 无 符号 整数 以 确 你 h 为 正 。 


下 面 的 main 函 数 首先 把 每 个 箱 都 初始 化 为 NULL ， 接 着 读 取 单 词 并 
增加 计数 值 ， 然 后 迭代 散 列 表 输 出 (未 排序 的 ) 单词 和 计数 值 : 
int main(void) 
for i = [0, NHASH) 
bin[i] = NULL 
while scanf("%s",buf) != EOF 
incword(buf) 
for i = [0, NHASH) 
for (p = binli]; p != NULL; p = p->next) 
print p->word,p->count 
return 0 
主要 工作 由 incword 完 成 ， 它 负 员 增加 与 输入 单词 相关 联 的 计数 句 
的 值 (如 果 以 前 没有 这 个 单词 ， 就 对 计数 器 进行 初始 化 ) : 
void incword(char *s) 
h = hash(s) 
for (p = bin[h]; p != NULL; p = p->next) 
if strcmp(s,p->word) == 
(p->count)++ 
return 
p = malloc(sizeof(hashnode)) 
p->count = 1 
p->word = malloc(strlen(s)+1) 
strcpy(p->word,s) 
p->next = bin[h] 
bin[h] = p 
incword 函数 中 的 for HABA AA ENE TZ e WFR 
发 现 了 该 单词 ， 就 将 其 计数 值 增加 1 并 返回 ; AM, WA An 


点 ， 为 其 分 配 空间 并 复制 字符 串 (有 经 验 的 C 程序 员 会 使 用 strdup 来 
完成 该 任务 ) ， 然 后 将 新 结 点 插入 到 链表 的 最 前 面 。 

这 个 C 程 序 读 取 操 作 约 需要 2.4 秒 〈 跟 C++ 版 本 一 样 ) ， 但 是 插入 操 
作 只 需要 0.5 秒 (C++ 版 本 需要 4.9 秒 ) ， 输 出 操作 只 需要 0.06 秒 (C++ 版 
本 需要 0.3 秒 ) 。 因 此 总 的 运行 时 间 是 3.0 秒 (以 前 是 7.6 秒 ) ， 其 中 处 理 
时 间 是 0.56 秒 [17] (以 前 要 5.2 秒 ) 。 我 们 (用 30 行 的 C 代 码 ) 定制 的 散 
列表 比 C++ 标 准 模 板 库 中 的 映射 快 一 个 数量 级 。 

前 面 我 们 通过 实例 介绍 了 表示 单词 集合 的 两 种 主要 方法 。 平 衡 搜 
索 树 将 字符 串 看 作 不 可 分 割 的 对 象 进行 操作 ， 标 准 模板 库 的 set 和 map 中 
大 部 分 实现 都 使 用 这 种 结构 。 平 衡 搜 索 树 中 的 元 素 始终 处 于 有 序 状 
态 
另 


， 从 而 很 容易 执行 寻找 前 驱 结 点 或 者 按 顺 序 输出 元 素 之 类 的 操作 。 

一 方面 ， 散 列 则 和 需要 深入 字符 串 的 内 部 ， 计 算 散 列 函数 并 将 关键 子 
分 散 到 一 个 较 大 的 表 中 。 散 列 方法 的 平均 速度 很 快 ， 但 缺乏 平衡 树 提 
供 的 最 坏 情况 性 能 保证 ， 也 不 能 文 持 其 他 涉及 顺序 的 操作 。 


15.2 短语 


单词 是 文档 的 基本 组 成 部 分 ， 许 多 重要 的 问题 可 以 通过 搜索 单词 
得 到 解决 。 但 是 ， 有 时 我 们 也 需要 在 长 字符 串 (文档 、 帮 助 文件 、 网 
页 乃至 整个 网 站 ) 中 搜索 “substring searching” ` “implicit data structures” 
之 类 的 短语 。 

如 何在 一 个 很 大 的 文本 中 搜索 “ 几 个 单词 组 成 的 短语 ” 呢 ? 如 果 之 
前 没 看 过 该 文本 ， 我 们 别 无 选择 ， 只 能 从 头 开始 扫描 整 个 文本 内 容 。 
大 部 分 算法 教材 都 措 述 了 许多 解决 此 类 “ 子 串 搜索 问题 "的 方法 。 

假定 我 们 可 以 在 执行 搜索 之 前 对 文本 内 容 进行 预 处 理 ， 那 么 我 们 
可 以 建立 一 个 散 列 表 (或 者 搜索 树 ) ， 为 文档 中 的 每 个 不 同 的 单词 建 
并 索引 ， 并 为 每 个 单词 的 每 次 出 现存 储 一 个 链表 。 这 样 的 “逆向 索引 ” 


使 得 程序 可 以 很 快 地 找到 给 定 的 单词 。 为 了 查找 短语 ， 我 们 可 以 对 其 
中 包含 的 每 个 单词 的 链表 进行 交叉 ， 但 是 实现 起 来 比较 复杂 ， 速 度 可 
能 会 很 慢 。 (不 过 一 些 网 页 搜索 引 敬 用 的 就 是 这 种 方法 。) 

下 面 我 们 介绍 一 种 强大 的 数据 结构 ， 并 将 其 应 用 到 一 个 小 问题 
E: 给 定 一 个 文本 文件 作为 输入 ， 查 找 其 中 最 长 的 重复 子 字 符 串 。 例 


WH, “Ask not what your country can do for youbut what you can do for 


Po ht: 


your country” 中 最 长 的 重复 字符 串 是 “can do for you”， 第 二 长 的 是 “your 
country” ° 如 何 编写 解决 这 个 问题 的 程序 呢 ? 
这 个 问题 使 我 们 想起 了 2.4 节 的 变 位 词 程序 。 如 果 输 入 字符 串 存 储 
在 c[0..n-1H 中 ， 那 么 我 们 可 能 会 使 用 类 似 下 面 的 伪 代 码 比 较 每 对 子 串 : 
maxlen = -1 
for i = [0,n) 
for j = (i,n) 
if (thislen = comlen(&c[i],&c[j])) > maxlen 
maxlen = thislen 
maxi = i 
maxj =j 
comlen 函 数 返 回 其 两 个 参数 字符 串 中 共同 部 分 的 长 度 ， 从 第 一 个 
字符 开始 比较 ; 
int comlen(char *p,char *q) 
i=0 
while *p && (*p++ == *qt++) 
i++ 
return i 
由 于 该 算法 查看 所 有 的 字符 串 对 ， 因 此 所 需 的 最 少时 间 是 mw 的 倍 
数 。 可 以 用 散 列表 搜索 短语 中 的 单词 来 实现 提速 ， 但 这 里 我 们 打算 采 
用 一 种 全 新 的 方法 。 


我 们 的 程序 最 多 处 理 MAXN 个 字符 ， 这 些 字 符 存 储 在 数组 c 中 : 

#define MAXN 5000000 

char c[MAXN],*a[MAXN]; 

我 们 将 使 用 一 个 称 为 “后 绥 数 组 ”的 简单 数据 结构 。 尽 管 该 术语 在 
20 世 纪 90 年 代 才 提出 ， 但 70 年 代 人 们 就 开始 使 用 该 结构 了 。 这 个 结构 
是 一 个 字符 指针 数组 ， 记 为 a。 读 取 输入 时 ， 我 们 对 a 进行 初始 化 ， 使 
得 每 个 元 素 指 同 输 入 字符 串 中 的 相应 子 符 : 

while (ch = getchar()) != EOF 


aln] = &c[n] 
cIn++] = ch 
c[n| = 0; 


c 的 最 后 一 个 元 素 是 空 字符 ， 空 字符 是 所 有 字符 串 结束 的 标志 。 

元 素 a[0] 指 疝 整 个 字符 日， 下 一 个 元 素 指 向 从 第 二 个 字符 开始 的 数 
组 后 级 ， 依 此 类 推 。 对 于 输入 字符 串 “banana”， 该 数组 能 够 表示 下 面 这 
些 后 级 : 

a[0]: banana 

al1]: anana 

al2]: nana 

a[3]: ana 

a[4]: na 

a[5]: a 

数组 a 中 指针 所 指 的 对 象 包含 了 字符 串 的 每 一 个 后 经， 因此 称 a 为 
“后 级 数组 ”。 

如 有 末 某 个 长 字符 串 在 数组 c 中 出 现 两 次 ， 那 么 它 将 出 现在 两 个 不 同 
的 后 级 中 ， 因 此 我 们 对 数组 排序 以 寻找 相同 的 后 级 ( 束 像 在 2.4 节 用 排 
序 寻 找 变 位 词 一 样 ) 。“banana” 数 组 排序 为 : 

al0]: a 


a[1]: ana 

a[2]: anana 

a[3]: banana 

a[4]: na 

a[5]: nana 

Pea Be) AAA, iB Pee bo A RK RAY) 
字符 串 ， 本 例 为 "ana”。 

可 以 使 用 qsort 函 数 对 后 绥 数 组 进行 排序 ; 

qsort(a,n,sizeof(char *),pstrcmp) 

其 中 比较 函数 pstrcmp 实 际 上 是 对 strcmp 库 函数 的 一 层 间 接 调用 。 
扫描 数组 时 ， 使 用 comlen 函 数 统计 两 个 相 邻 单词 共有 的 字母 数 : 

for i = [0,n) 

if comlen(a[i],a[i+1]) > maxlen 
maxlen = comlen(a[i],a[i+1]) 
maxi =i 

printf("%.*s\n",maxlen,a[maxi]) 

printf 语 句 使 用 “*” 精 度 输 出 字符 串 中 的 maxlen 个 字符 。 

运行 我 们 的 程序 ， 在 Samuel Butler 翻 译 的 《 集 马 史诗 》 一 书 的 807 
503 个 字符 中 寻找 最 长 的 重复 字符 串 。 程 序 需要 4.8 秒 来 定位 该 字符 串 : 

whose sake so many of the Achaeans have died at Troy,far from their 
homes? Go about at once among the host,and speak fairly to them,man by 
man,that they draw not their ships into the sea. 

这 段 文 字 第 一 次 出 现在 Juno (RIA) GW Minerva (ETL) BHIE 
希腊 人 (Achaean) 离开 特洛伊 的 时 候 ， 不 久 它 又 在 Minerva 将 这 段 话 一 
字 不 差 地 重复 给 Ulysses 〈 尤 里 西 斯 ) 听 的 时 候 出 现 了 。 在 这 种 具有 n 个 
字符 的 常见 文本 文件 上 ， 由 于 排序 的 存在 ， 算 法 需要 Oa log n) 的 运行 
时 间 。 


对 于 n 个 字符 的 输入 文本 ， 后 绥 效 组 使 用 文本 目 身 和 额外 的 n 个 指 
针 来 表示 每 个 子 串 。 习 题 6 研究 了 如 何 用 后 绥 数 组 解决 子 串 搜索 问题 ， 
下 面 我 们 来 看 看 后 缀 数组 的 一 个 更 复 洒 的 应 用 。 


15.3 生成 文本 


如 何 生成 随机 文本 ? 一 种 比较 经 典 的 方法 是 让 一 只 可 怜 的 猴子 在 
旧 打 字 机 上 敲 击 。 如 果 猴 子 敲 击 任 何 一 个 小 写字 和 母 或 空格 键 的 概率 是 
一 样 的 ， 那 么 输出 可 能 像 下 面 这 样 : 

uzlpcbizdmddk njsdzyyvfgxbgjjgbtsak € rqvpgnsbyputvqqdtmgltz 


yndotqigex jumqphu jcfwn ll jiexpyqzgsdllgcoluphl sefsrvqqytjakmav 
bfusvirsjl wprwat 

这 显然 不 是 英文 文本 。 

如 果 统 计 一 下 单词 游戏 (如 Scrabble™M 或 BoggleIM ) 中 的 字 
数 ， 我 们 会 发 现 不 同 字 和 母 的 出 现 次 数 是 不 一 样 的 ， 例 如 A 比 Z 多 得 多 。 
通过 统计 文档 中 的 字母 数 ， 猴 子 可 以 打出 更 像 英文 的 文本 一 一 如 采 A 在 
文本 中 出 现 了 300 次 而 B 只 出 现 了 100 次 ， 那 么 猴子 输入 A 的 概率 就 是 输 
入 B 的 3 倍 。 这 样 我 们 就 离 英 文 近 了 一 小 步 : 


saade ve mw hc n entt da k eethetocusosselalwo gx fgrsnoh,tvettaf 


aetnlbilo fc lhd okleutsndyeosht- bogo eet ib nheaoopefni ngent 

多 数 事 件 发 生 在 上 下 文中 。 假 定 我 们 要 随机 生成 一 年 的 华氏 温度 
数据 ，0 一 100 范 围 内 的 365 个 随机 整数 序列 无 法 其 统一 般 的 观察 者 。 我 
们 可 以 通过 把 今天 的 温度 设置 为 昨天 温度 的 (随机) 范 数 来 得 到 更 可 
信 的 结果 : 如 果 今 天 是 85%C ， 那 么 明天 不 太 可 能 是 15°C © 

对 于 英文 单词 也 是 这 样 : 如 果 当 前 字母 是 Q， 那 么 下 一 个 字母 是 U 
的 可 能 性 很 大 。 通 过 把 每 个 字母 设置 为 其 前 一 个 字母 的 随机 函数 ， 生 
成 器 可 以 得 到 更 令 人 感 兴 趣 的 文本 。 因 此 ， 我 们 可 以 先 读 取 一 个 样 


本 ， 统 计 A 之 后 每 个 字母 出 现 的 次 数 、B 之 后 每 个 字母 出 现 的 次 数 ， 等 
等 。 在 写 随 机 文本 的 时 候 ， 我 们 用 当前 字母 的 一 个 随机 函数 生成 下 一 
个 字母 ， 下 面 的 “1 阶 ”(\Order-1) 文本 就 是 用 这 种 方案 生成 的 : 


Order-1:t I amy,vin.id wht omanly heay atuss n macon aresethe hired 


boutwhe t,tl,ad torurest t plur I wit hengamind tarer-plarody thishand. 

Order-2:Ther I the heingoind of-pleat,blur it dwere wing waske hat 
trooss. Yout lar on wassing,an sit." "Yould," "I that vide was nots ther. 

Order-3: I has them the saw the secorrow.And wintails on my my 
ent,thinks,fore voyager lanated the been elsed helder was of him a very free 
bottlemarkable,Order-4:His heard.""Exactly he very glad trouble,and by 
Hopkins! That it on of the who difficentralia.He rushed likely?" "Blood night 
that. 

我 们 可 以 把 这 一 思想 扩展 到 更 长 的 字母 序列 上 。2 阶 文本 是 通过 把 
每 个 字母 设置 为 其 前 面 两 个 字母 的 函数 得 到 的 (一 对 字母 通常 称 为 二 
连 字母 ) 。 例 如 ， 二 连 字 母 TH 在 英文 中 后 面 通常 跟 A、E、I、O、U 和 
Y， 后 面 跟 R 和 WwW 的 可 能 性 小 一 些 ， 跟 其 他 字母 的 情况 很 少 。3 阶 文 本 
是 通过 把 下 一 个 字母 设置 为 其 前 面 三 个 字母 (三 连 字母 ) 的 函数 得 到 
的 。 而 到 了 4 阶 文 本 ， 大 多 数 单词 都 是 英文 单词 了 ， 当 我 们 发 现 它 来 目 
《福尔摩斯 探 案 集 》 中 的 “ 格 兰 其 修道 院 历 险 记 ”时 可 能 不 会 感到 惊 
讶 。 一 位 学 习 过 古典 文学 的 读者 在 阅读 本 章 草 稿 时 评论 说 ， 这 4 上 段 文本 
使 他 想起 了 古代 英语 到 维多利亚 英语 的 演变 。 

具有 数学 背景 的 读者 可 能 会 将 这 个 过 程 视 为 一 个 马尔 可 夫 链 。 每 
个 状态 表示 一 个 k 连 字 母 ， 并 且 从 一 个 状态 到 另 一 个 状态 的 概率 是 不 变 
的 。 因 此 这 是 一 个 “具有 固定 转换 概率 的 有 限 状 态 马 尔 可 夫 链 ”。 

我 们 也 可 以 在 单词 级 别 上 生成 随机 文本 : 最 案 的 方法 是 随机 输出 
字典 中 的 单词 ， 和 稍微 好 一 点 的 方法 是 读 取 一 个 文档 ， 对 每 个 单词 计 
数 ， 然 后 根据 适当 的 概率 选择 下 一 个 输出 的 单词 (15.1 节 的 程序 用 到 


X 
A 


了 适合 这 种 任务 的 工具 ) ; 如 采 使 用 在 生成 下 一 个 单词 时 考虑 前 面 几 
个 单词 的 马尔 可 夫 链 ， 我 们 可 以 得 到 更 加 令 人 感 兴趣 的 文本 。 下 面 是 
阅读 本 书 前 14 章 的 草稿 后 所 生成 的 随机 文本 。 

Order-1: The table shows how many contexts; it uses two or equal to 
the sparse matrices were not chosen.In Section 13.1,for a more efficient that 
“the more time was published by calling recursive structure translates to 
build scaffolding to try to know of selected and testing and more robust and 
a binary search). 

Order-2:The program is guided by verification ideas,and the second errs 
in the STL implementation (which guarantees good worst-case 
performance),and is especially rich in speedups due to Gordon 
Bell.Everything should be to use a macro: for n=10,000,its run time; that 
point Martin picked up from his desk 

Order-3:A Quicksort would be quite efficient for the main-memory 
sorts,and it requires only a few distinct values in this particular problem,we 
can write them all down in the program,and they were making progress 
towards a solution at a snail’s pace. 

1 阶 文本 几乎 可 以 大 声 地 读 出 来 ; 3 阶 文本 由 原始 输入 中 的 长 短语 
构成 ， 短 语 之 间 的 转换 是 随机 的 ;而 2 阶 文 本 模拟 英文 的 效果 通常 是 最 
理想 的 。 

我 是 在 香农 1948 年 的 著名 的 论文 “Mathematical Theory of 
Communication” 中 第 一 次 看 到 字母 级 别 和 单词 级 别 的 英文 文本 k 阶 近似 
的 。 香 农 是 这 样 说 的 :“ 以 构建 [字母 级 别 的 1 阶 文本 ] [18] 为 例 ， 我 们 随 
机 打开 一 本 书 并 在 该 页 随机 选择 一 个 字母 记录 下 来 。 然 后 翻 到 男 一 页 
开始 读 ， 直 到 遇 到 该 字母 ， 此 时 记录 下 其 后 面 的 那个 字母 。 再 翻 到 另 
外 一 页 搜索 上 述 第 二 个 字母 并 记录 其 后 面 的 那个 字母 ， 依 此 类 推 。 对 
于 [字母 级 别 的 1 阶 、2 阶 文本 和 单词 级 别 的 0 阶 、1 阶 文本 ] [19] ， 处 理 过 


程 是 类 似 的 。 如 果 后 续 的 近似 都 可 以 构建 ， 那 将 是 非常 有 趣 的 ， 不 过 
工作 量 也 将 会 非常 大 。” 

可 以 用 程序 来 自动 完成 这 一 艰苦 的 工作 。 我 们 生成 k 阶 马尔 可 夫 链 
的 C 程 序 最 多 在 数组 inputchars 中 存储 5 MB 的 文本 : 

int k = 2; 

char inputchars[5000000]; 

char *word[ 1000000]; 

int nword = 0; 

我 们 可 以 通过 扫描 整个 输入 文本 来 直接 实现 香农 的 算法 ， 从 而 生 
成 每 个 单词 (不 过 当 文 本 很 大 时 这 样 做 可 能 比较 慢 ) 。 我 们 实际 采用 
的 做 法 是 把 数组 word 作 为 一 种 指 疝 字 符 的 后 缀 数组 ， 不 同 之 处 在 于 它 
仅 从 单词 的 边界 开始 (常见 的 修改 ) 。 变 量 nword 保 存单 词 的 数目 。 我 
们 用 下 面 的 代码 读 取 文件 : 

word[0] = inputchars 

while scanf("%s",word[nword]) != EOF 


word[nword+1] = word[nword] + strlen(word[nword]) + 1 


nword++ 
每 个 单词 都 附加 到 inputchars 的 后 面 (不 需要 分 配 其 他 存储 空 
间 ) ， 并 用 scanf 提供 的 
空 字符 作为 结束 标志 。 
读 完 输 入 后 ， 我 们 将 对 word 数组 进行 排序 ， 以 得 到 指向 同一 个 k 单 
词 序列 的 所 有 指针 。 下 列 函 数 完成 比较 工作 : 
int wordncmp(char *p,char* q) 
n=k 
for ( ; *p == *q; p++,q++) 
if (*p == 0 && --n == 0) 


return 0 


return *p - *q 

TER UTE FF RNR Se FPN SE Ro BEVIS Bl 28 APA , 
将 计数 器 n 减 1， 并 在 找到 k 个 相同 的 单词 后 返回 相同 ， 当 过 到 不 同 的 
符 时 ， 返 回 差别 。 

读 完 输入 后 ， 我 们 先 在 word 数组 后 面 附加 k 个 空 字符 〈 这 样 比较 范 
数 就 不 会 运行 到 最 后 ) ， 并 输出 文档 的 前 k 个 单词 (启动 随机 输出 ) ， 
然后 调用 排序 : 

for i = [0,k) 
word[nword][i] = 0 
for i = [0,k) 


print word[i] 


E 
了 


qsort(word,nword,sizeof(word[0]),sortcmp) 

像 通 弟 一 样 ，sortcmp 男 数 为 它 的 指针 参数 增加 了 一 层 间 接 调 用 。 

我 们 的 空间 高 效 结构 现在 包含 了 大 量 有 关 文 本 中 k 连 单词 的 信息 。 
如 果 k 为 1 且 输 入 文本 为 “of the people,by the people,for the people”, MI) 
word 数 组 可 能 像 下 面 这 样 : 

word[0]: by the 

word[1]: for the 

word[2]: of the 

word[3]: people 


word[4]: people, for 

word[5]: people,by 

word[6]: the people, 

word[7]: the people 

word[8]: the people, 

清晰 起 见 ， 上 面 仅 给 出 了 数组 word 中 每 个 元 素 所 指向 的 前 k+1 个 单 
词 ， 通 肖 后 面 还 有 更 多 单词 。 如 末 要 查找 “the” 后 面 所 跟 的 单词 ， 就 在 


后 组 数组 中 进行 查找 ， 发 现 有 三 个 选择 : 两 次 people”， 一 次 
“Deople” ° 
现在 我 们 可 以 用 下 面 的 伪 代 码 描 述 来 生成 无 意义 的 文本 : 
phrase = first phrase in input array 
loop 
perform a binary search for phrase in word[0..nword-1] 
for all phrases equal in the first k words 
select one at random,pointed to by p 
phrase = word following p 
if k-th word of phrase is length 0 
break 
print k-th word of phrase 
我 们 通过 将 phrase 设 置 为 输入 文件 中 的 第 一 个 短语 (回忆 一 下 ， 这 
些 单词 已 经 在 输出 文件 中 了 ) 来 对 循环 进行 初始 化 。 二 分 搜索 使 用 9.3 
节 的 代码 来 定位 phrase 的 第 一 次 出 现 (找到 第 一 次 出 现 非 常 关键 ，9.3 市 
的 二 分 搜索 实现 的 正 是 这 个 功能 ) 。 接 下 来 的 for 循 环 扫描 所 有 相同 的 
短语 ， 并 使 用 答案 12.10 从 中 随机 选择 一 个 。 如 采 该 短语 的 第 k 个 单词 长 
度 为 0， 那 么 当 m 一 个 ， 因 此 我 们 跳出 循环 。 
下 面 的 完整 全 代码 实现 了 这 些 想法 ， 并 设置 了 所 生成 单词 数目 的 
EF: 
phrase = inputchars 
for (wordsleft = 10000; wordsleft > 0; wordsleft--) 


l=-1 

u = nword 

while 1+1 != u 
m=(l+u)/2 


if wordncmp(word[m],phrase) < 0 


l=m 
else 
u=m 
for (i = 0; wordncmp(phrase,word[uti]) == 0; i++) 
if rand() % (i+1) == 0 
p = word[u+i] 
phrase = skip(p,1) 
if strlen(skip(phrase,k-1)) == 0 
break 
print skip(phrase,k-1) 
Kernighani Pike Practice of Programming (5.9 节 介绍 过 ) 一 书 的 
第 3 章 专门 讨论 "设计 与 实现 ”这 一 主题 。 该 章 围绕 单词 级 别 的 马尔 可 夫 
文本 生成 问题 进行 讨论 ， 因 为 “ 它 具 有 一 定 的 代表 性 : 读 入 一 些 数据 ， 
输出 一 些 数据 ， 处 理 过 程 需要 一 点 技巧 ”。 他 们 介绍 了 该 问题 的 有 趣 历 
上 中， 并 使 用 C、Java、C++、Awk 和 Per 进行 了 实现 。 
本 节 的 程序 与 他 们 的 C 程 序 性 能 相当 ， 但 代码 量 是 它们 的 一 半 。 通 
过 用 一 个 指 网 k 个 连续 单词 的 指针 来 表示 短语 ， 可 以 有 效 利 用 空间 且 实 
现 起 来 比较 方便 。 当 输入 规模 接近 1 MB 时 ， 两 个 程序 的 速度 大 致 相 
同 。 由 于 Kernighan 和 Pike 使 用 了 较 大 的 结构 ， 并 大 量 使 用 了 效率 不 高 
的 malloc， 因 此 在 我 的 系统 上 ， 本 章 的 程序 所 需 的 内 存 空间 要 小 一 个 数 
量 级 。 如 果 结 合 答案 14 的 加 速 ， 并 用 散 列表 替代 二 分 搜索 和 排序 ， 那 
么 本 节 的 程序 速度 将 提高 一 倍 (内 存 使 用 增加 约 50%) 。 


15.4 原理 


字符 串 问 题 。 编 谋 套 如 何在 符号 表 中 查找 变量 名 ? 在 我 们 输入 得 
询 字 符 串 的 每 个 子 符 时 ， 帮 助 系统 如 何 快速 地 搜索 整个 CD-ROM? 网 


页 搜索 引擎 如 何 查 找 一 个 短语 ? 解决 这 些 实际 问题 需要 用 到 本 章 简 单 
介绍 过 的 一 些 技 巧 。 

字符 串 的 数据 结构 。 我 们 已 经 看 到 了 几 种 用 于 表示 字符 串 的 最 为 
重要 的 数据 结构 。 

散 列 。 这 一 结构 的 平均 速度 很 快 ， 且 易于 实现 。 

平衡 树 。 这 些 结构 在 最 坏 情 况 下 也 有 较 好 的 性 能 ，C++ 标 准 模 板 库 
的 set 和 map 的 大 部 分 实现 都 采用 平衡 树 。 

后 缀 数组 。 初 始 化 指向 文本 中 每 个 字符 (或 每 个 单词 ) 的 指针 数 
组 ， 对 其 排序 束 得 到 一 个 后 级 数组 。 然 后 可 以 壳 历 该 数组 以 查找 接近 
的 字符 串 ， 也 可 以 使 用 二 分 搜索 查找 单词 或 短语 。 

13.8 市 使 用 了 其 他 几 种 结构 来 表示 字典 中 的 单词 。 

使 用 库 组 件 还 是 使 用 定制 的 组 件 ? C++ 标准 模板 库 中 的 sets、maps 
和 strings 使 用 起 来 都 很 方便 ， 但 是 它们 通用 而 强大 的 接口 也 意味 着 它们 
的 效率 不 如 专用 的 散 列 函数 高 。 另 外 一 些 库 组 件 则 非常 高 效 : 散 列 使 
用 stremp， 后 级 数组 使 用 qsort。 我 在 马尔 可 夫 程 序 中 写 二 分 搜索 和 
wordncmp 函 数 的 代码 时 参考 了 bsearch 和 strcmp 的 库 实 现 。 


15.5 习题 


1. 本 章 通 篇 对 单词 采用 如 下 的 简单 定义 : 单词 由 空白 字符 隔 开 。 但 
HTML 或 RTF 等 格式 的 许多 实际 文档 包含 格式 命令 。 如 何 处 理 这 种 命 
令 ? 是 否 还 需要 进行 其 他 处 理 ? 

2. 在 内 存 很 大 的 机 器 上 如 何 使 用 C++ 标 准 模板 库 的 set 或 map 来 解决 
13.8 节 的 搜索 问题 ? 与 Mcllroy 的 结构 进行 比较 ， 它 需要 多 少 内 存 ? 

3. 在 15.1 闻 的 散 列 函数 中 采用 管 案 9.2 中 的 专用 malloc， 能 使 速度 提 
升 多 少 ? 


4. 当 散 列 表 较 大 ， 且 散 列 函数 能 够 均匀 分 布 数据 时 ， 表 中 每 个 链表 
的 元 素 都 不 多 。 如 果 这 两 个 条 件 都 满足 ， 那 么 查找 所 需 的 时 间 就 会 很 
多 。 如 果 15.1 节 的 散 列 表 中 没有 找到 某 个 新 的 字符 串 ， 束 将 它 放 到 链表 
的 最 前 面 。 为 了 模拟 散 列 存在 的 问题 ， 将 NHASH 议 置 为 1， 并 用 15.17 
的 链表 策略 和 其 他 的 链表 策略 (例如 添加 到 链表 的 最 后 面 ， 或 者 将 最 
近 找 到 的 元 素 放 置 到 链表 的 最 前 面 ) 进行 实验 。 

5. 在 观察 15.1 节 词 频 程序 的 输出 时 ， 将 单词 按 频率 递减 的 顺序 输出 
是 最 合适 的 。 如 何 修改 C 和 C++ 程 序 以 完成 这 一 任务 ? 如 何 仅 输出 M 
个 最 常见 的 单词 (其 中 M 是 常数 ， 例 如 10 或 者 1000) ? 

6. 给 定 一 个 新 的 输入 字符 串 ， 如 何 搜索 后 缀 数组 ， 以 找到 所 存储 文 
本 中 的 最 长 匹配 ?如 何 建立 一 个 图 形 用 户 界面 来 完成 该 任务 ? 

7. 我 们 的 程序 对 于 “常见 ”的 输入 能 够 快速 找到 重复 的 字符 串 ， 但 是 
在 某 些 输入 下 速度 很 慢 (超过 平方 复杂 度 ) 。 计 算 这 类 输入 下 程序 运 
行 的 时 间 。 实 际 应 用 中 曾 出 现 过 这 类 输入 吗 ? 

8. 如 何 修 改 查 找 重复 字符 串 的 程序 ， 以 找 出 出 现 超过 M 次 的 最 长 的 
FRR? 

9. 给 定 两 个 输入 文本 ， 找 出 它们 共有 的 最 长 字符 串 。 

10. 说 明 在 查找 重复 字符 串 的 程序 中 ， 如 何 通过 仅 指 向 从 单词 边界 
开始 的 后 级 来 减少 指针 的 数目 。 这 对 程序 的 输出 有 何 影 响 ? 

11. 实 现 一 个 程序 ， 生 成 字母 级 别 的 马尔 可 夫 文 本 。 

12. 如 何 使 用 15.1 节 中 的 工具 和 方法 生成 ( 零 阶 或 非 马 尔 可 夫 ) 随 
机 文本 ? 

13. 本 书 网 站 上 提供 了 生成 单词 级 别 的 马尔 可 夫 文 本 的 程序 ， 用 目 
己 的 一 些 文档 测试 该 程序 。 

14. 如 何 使 用 散 列 对 马尔 可 夫 程 序 提速 ? 

15.15.3 市 中 对 香农 的 引用 描述 了 他 用 来 构建 马尔 可 夫 文 本 的 算 
法 ， 编 写 程序 实现 该 算法 。 它 给 出 了 马尔 可 夫 频 率 的 很 好 的 近似 ， 但 


不 是 精确 的 形式 。 解 释 为 什么 不 是 精确 的 形式 。 编 写 程 序 从 头 开始 扫 
描 整个 字符 串 (从 而 可 以 使 用 真实 的 频率 ) 以 生成 每 个 单词 。 

16. 如 何 使 用 本 章 的 方法 形成 字典 的 单词 列表 (这 是 13.8 广 中 Doug 
Mcllroy 面 临 的 问题 ) ? 如 何在 不 使 用 字典 的 前 提 下 建立 拼写 检查 器 ? 
如 何在 不 使 用 语法 规则 的 前 提 下 建立 语法 检查 器 ? 

17. 研 究 一 下 在 语音 识别 和 数据 压缩 等 应 用 中 ， 与 k 连 字母 分 析 有 关 
的 方法 是 如 何 使 用 的 。 


15.6 深入 阅读 


8.8 节 引用 的 很 多 书 都 有 表示 和 处 理 字 符 串 的 有 效 算法 和 数据 结构 
的 内 容 。 


[1]. C.A.R.Hoare (1934—) ， 著 名 计算 机 科学 家 ，1980 年 图 灵 奖 得 
主 。 现 为 微软 剑桥 人 研究 院 高 级 研究 员 。1960 年 提出 Quicksort， 后 开发 
了 用 于 程序 验证 的 Hoare 逻 辑 。 一 一 编者 注 


[2]. 下 一 节 将 讨论 更 常见 的 双向 划分 的 快速 排序 。 虽 然 其 基本 思想 非常 
简单 ， 但 实现 细节 上 很 需要 技巧 一 我 曾 花 两 天 的 时 间 跟 踪 一 个 错 
误 ， 结 果 却 发 现 该 错误 隐藏 在 一 个 很 短 的 划分 循环 内 。 看 过 本 章 章 入 
的 一 位 读者 认为 ， 标 准 的 方法 实际 上 比 Lomuto 的 方法 简单 ， 并 马上 写 
出 二 此 代码 来 证 明 他 的 观点 ， 我 在 他 的 代码 中 发 现 两 个 错误 后 就 再 
继续 看 了 。 


[3]. 很 容易 名 略 这 一 步 并 使 用 参数 (m) 和 (m+1 进 行 递归 。 不 笠 的 
是 ， 当 t 是 子 数组 中 严格 最 大 的 元 素 时 ， 这 会 导致 死 循环 。 验 证 终止 条 
件 的 时 候 会 发 现 这 个 问题 ， 不 过 读者 大 概 能 猜 到 我 实际 上 是 如 何 发 现 
该 问题 的 。Miriam Jacob 给 出 了 一 个 优雅 的 不 正确 性 证 明 : 由 于 从 来 不 
移动 x[1]， 因 此 只 有 当 数 组 中 的 最 小 元 素 为 x[0] 时 该 排序 才 是 正确 的 。 


[4]. 实际 的 程序 产生 范围 1~ 内 的 m 个 整数 ， 本 章 为 了 与 其 他 各 章 的 范 
围 保持 一 致 ， 将 范围 改 为 从 0 开始 ， 这 样 惑 能够 使 用 本 章 的 程序 生成 C 
数组 的 随机 样本 。 程 序 员 从 0 开始 计数 ， 而 民意 调查 人 员 从 1 开始 。 


[5]. 该 书 第 3 版 喘 文 影印 版 和 完 后 由 清华 大 学 出 版 社 和 机 械 工业 出 版 社 出 
版 ， 中 文书 名 为 《计算 机 程序 设计 艺术 第 2 卷 半数 值 算法 》， 中 译 版 
由 国防 工业 出 版 社 出 版 ， 中 文书 名 为 《计算 机 程序 设计 艺术 第 2 卷 半 
数值 算法 》。 一 一 编者 注 

[6]. 该 书 第 57 页 概述 了 Arthur Koestler 对 3 种 创新 性 的 看 法 : ah! 表 示 原 创 
性 ，ahal (HIS!) 表示 新 发 现 ， 西 点 军校 这 个 学 生 的 解决 方案 属于 
hahal 一 一 用 低 技术 含量 的 答案 来 解决 高 技术 含量 的 问题 是 很 有 趣 的 。 


[7]. 第 13 章 中 的 说 法 是 1 600 000 ° ——HR AYE 


[8]. Robert W.Floyd (1936—2001) ， 著 名 计算 机 科学 家 ，1978 年 图 灵 
奖 得 主 。 他 设计 了 Floyd 算 法 ， 并 开创 了 使 用 逻辑 断言 进行 程序 验证 的 
领域 。 他 与 Knuth 紧 密 合 作 ， 是 The Art of Computer Programming 的 主要 
审 稿 人 人， 也 是 书 中 引用 次 数 最 多 的 人 。 编者 注 


[9]. 习题 6 描述 了 一 个 根据 编程 风格 评分 的 课堂 练习 。 大 部 分 学 生 都 提 
区 了 一 页 的 解决 方案 ， 因 此 都 得 到 了 中 等 的 成 绩 。 有 两 个 学 生前 一 个 
暑假 刚 参 加 过 一 个 大 型 的 软件 开发 项 目 ， 他 们 提交 了 长 达 5 页 的 美观 程 
序 ， 程 序 由 十 多 个 函数 组 成 ， 每 个 函数 都 有 详细 的 标题 。 我 给 了 他 俩 
不 及 格 : 最 好 的 程序 只 有 5 行 代码 ， 脱 胀 了 60 倍 的 代码 当然 不 能 及 格 。 
当 这 两 个 学 生 回 我 抱怨 说 他 们 使 用 了 标准 的 软件 工程 工具 时 ， 我 引用 
了 Pamela Zave 的 名 言 : “软件 工程 的 目的 是 控制 复杂 度 ， 而 不 是 增加 复 
a ee ee mhe ANJ 
DANN JHS E o 


[10]. 我 写 的 第 一 个 版 本 的 中 序 通 历 有 一 个 奇怪 的 问题 : 编译 器 报告 内 
部 不 一 致 然后 束 死 挥 了 ， 而 关闭 优化 选项 后 这 个 问题 束 没 有 了 ， 因 此 
当时 我 认为 是 编译 万 的 问题 。 后 来 我 发 现 了 问题 所 在 :我 在 快速 编写 
届 历 代码 时 ， 和 起 记 加 上 对 p 进 行 古 否 为 空 的 放 测 坛 了 。 优 化 紫 试 图 将 尾 
递归 转化 为 循环 ， 如 琳 找 不 到 终止 循环 的 测试 整 会 死 挥 。 


[11]. 与 第 12 章 的 说 法 1 700 000 不 一 致 ， 不 过 这 不 影响 理解 。 一 一 译 者 
注 


[12]. 在 其 他 一 些 场合 中 ,“ 堆 ”是 指 能 够 分 配 可 变 大 小 的 结 扩 的 一 段 较 
大 的 内 存 。 本 章 不 考虑 这 层 意义 。 


[13]. 循环 不 变 式 中 没有 说 明 这 个 重要 的 性 质 。Don Knuth 发 现 ， 为 了 更 
加 精确 ， 应 该 将 不 变 式 加 强 为 “如 琳 设 有 父 结 点 ， 那 么 heap(1,n) 为 真 ; 
否则 ， 如 有 果 x[j 被 x[p] 替 换 (其 中 p 是 i 的 父 结 点 ) ， 那 么 heap(1,n) 也 为 
真 ”。 稍 后 的 siftdown 循 环 也 有 类 似 的 结论 。 


[14]. 由 于 可 包含 同一 元 素 的 多 个 副本 , “多 集 ? 或 * 包 ”的 叫 法 可 能 更 精 
确 。 并 运算 符 定 义 为 {2,3} {2}={2,2,3} 。 


[15]. 也 就 是 说 ， 假 设 1 号 种 子 必 胜 2 号 种 子 ，2 号 种 子 必 胜 3 号 种 子 ， 依 
此 类 推 。 译 者 注 


[16]. 原文 为 “Almost eight percent of the 789 616 words in the text were the 
word “the” (as opposed to 16 percent of the words in this sentence)”, EHP 
共 25 个 单词 ， 不 算 带 引 号 的 “the"”， 普 通 的 the 出 现 4 次 。 一 一 译 者 注 


[17]. 原 书 为 0.55 秒 ， 有 误 。 一 一 译 者 注 


[18]. 香农 原著 为 “second-order approximation” ° 


译 者 注 


[19]. 香农 原著 为 “third-order approximation, first-order word 
approximation,and second-order word approximation” ° 


译 者 注 


ER 


[ 按 ] 作 者 的 目 问 目 答 在 当年 非常 适合 作为 本 书 第 1 版 的 跋 ， 如 今 这 
个 问答 依然 适合 本 书 新 版 的 内 容 ， 所 以 将 它 保留 了 。 

问 : 谢谢 你 同意 接受 我 的 采访 。 

答 : 不 用 客气 ， 呵 呵 ， 我 的 时 间 不 融 是 你 的 时 间 嘛 。 

问 : 既然 这 些 章 节 的 内 容 在 《ACM 通讯 》 中 早 就 刊载 过 了 ， 你 为 
什么 还 要 将 它们 整理 成 一 本 书 呢 ? 

答 : 有 几 个 小 的 原因 : 我 修正 了 几 十 处 错误 ， 进 行 了 几 百 处 较 小 
的 改进 ， 并 增加 了 有 几 个 新 的 革 市 ; 书 中 的 习题 、 管 案 和 插图 比 原来 多 
了 50%; 而 且 ， 将 这 些 内 容 整 理 成 一 本 书 ， 也 比 散布 在 十 几 本 杂志 
更 方便 读者 。 不 过 ， 最 大 的 原因 是 : 将 这 些 内 容 放 到 一 起 ， 才 更 容易 
看 出 贯穿 各 章 的 主题 ; 整体 大 于 局 部 之 和 。 

问 : 都 有 哪些 主题 ? 

答 : 最 重要 的 就 是 : 对 程序 设计 做 深入 思考 ， 这 既 有 用 义 有 趣 。 
程序 设计 不 仅仅 意味 着 根据 正式 的 需求 文档 进行 系统 化 的 程序 开发 。 
即便 只 能 够 帮助 一 个 灰心 的 程序 员 重新 爱 上 他 (她 ) 的 工作 ， 这 本 书 
也 算 达 到 目的 了 。 

H: 这 个 回答 很 模糊 ， 有 没有 把 各 章 联 系 在 一 起 的 技术 线索 ? 

答 : 性 能 是 第 二 部 分 的 题目 ， 也 十 贯穿 所 有 章 下 的 一 个 主题 。 程 
序 验 证 在 好 几 间 中 得 到 广泛 使 用 。 附 好 A 对 本 书 中 的 算法 进行 了 分 


问 : 似乎 多 数 章节 都 强调 了 设计 过 程 ， 你 能 人 否 总 结 一 下 目 己 在 这 
方面 的 建议 ? E: 我 很 高 兴 你 问 到 这 个 问题 。 在 回答 你 的 问题 之 前 ， 
我 碰巧 准备 了 一 个 列表 。 下 面 束 是 对 程序 员 的 10 条 建议 。 

解决 正确 的 问题 。 

探索 所 有 可 能 的 解决 方案 。 

观察 数据 。 

使 用 粗略 估算 。 

利用 对 称 性 。 

利用 组 件 做 设计 。 

建立 原型 。 

必要 时 进行 权衡 。 

保持 简单 。 

追求 优美 。 

以 上 几 点 最 初生 针对 编程 提出 的 ， 但 也 适用 于 其 他 任何 工程 环 
境 o 

H: 这 让 我 想起 了 一 个 一 直 困 扰 痢 我 的 问题 : 简化 本 书 中 的 小 程 
序 很 容易 ， 但 本 书 中 的 方法 能 放大 到 实际 软件 上 起 作用 吗 ? 

答 : 我 有 三 种 答案 : 能、 不 能 、 可 能 。 这 些 方法 “能 ”被 放大 ， 例 
如 ， (第 1 版 的 ，3.4 市 描述 了 一 个 大 型 软件 项 目 ， 这 个 项 目 经 过 简化 
后 ,“ 仅 ”需要 80 人 年 。 同 样 有 道理 的 答案 是 “不 能 ”: 如 果 倘 化 得 恰 
当 ， 束 可 以 避免 建立 庞大 的 系统 ， 这 些 方法 区 没 有 必要 被 放大 了 “。 这 
两 种 观点 都 有 道理 ， 但 实际 情况 往往 介 于 两 者 之 间 ， 这 束 古 为 什么 我 
说 “可 能 ”。 有 些 软件 必然 很 庞大 ， 本 书 的 主题 比较 适用 于 这 些 系统 。 
Unix 系 统 束 是 一 个 很 好 的 例 于 ， 由 多 个 简单 优美 的 部 分 组 成 一 个 强大 
的 整体 。 

H: 你 在 书 中 几乎 都 在 讨论 贝尔 实验 室 ， 这 会 不 会 使 书 中 内 容 有 
些 局 限 性 ? 


答 : 可 能 有 一 点 。 我 主要 使 用 了 目 己 看 到 的 一 些 实际 材 料 ， 这 使 
得 本 书 有 些 偏向 于 我 的 工作 环境 。 更 确切 地 说 ， 这 些 划 市 中 的 很 多 材 
料 是 我 的 同事 们 贡献 的 ， 他 们 应 该 受到 赞扬 (或 批评 ) 。 我 从 贝尔 实 
验 室 的 研究 人 员 和 开发 人 员 那 里 学 到 了 很 多 东西 。 贝 尔 实验 宇 具 有 很 
好 的 合作 氛围 ， 能 够 促进 研究 和 开发 之 间 的 交互 。 因 此 ， 很 多 你 觉得 
比较 局 限 的 东西 ， 实 际 上 是 我 对 公司 的 感情 的 表现 。 

fA]: 让 我 们 回 到 原来 的 话题 上 吧 ， 本 书 还 缺少 哪些 内 容 ? 

答 : 我 曾 想 在 本 书 中 摘 述 一 个 包 侣 很 多 程序 的 大 型 系统 ， 但 是 我 
无 法 在 篇 幅 通 党 为 10 页 左右 的 一 划 中 描述 一 个 有 趣 的 系统 。 从 更 一 般 
的 角度 上 来 说 ， 我 希望 将 来 能 够 增加 几 章 讨 论 “ 面 向 程序 员 的 计算 机 科 
学 ”类 似 于 第 4 章 的 程序 验证 和 第 8 章 的 算法 设计 ) 和 “工程 化 的 计算 
技术 ” (类 似 于 第 7 章 的 粗略 估算 ) 。 

[A]: 既然 你 这 么 注重 “科学 ?和 * 工 程 >， 那 为 什么 本 书 的 章节 侧重 
的 是 故事 情节 而 不 是 定理 和 表格 呢 ? 

答 : 行 啦 ， 目 问 目 答 可 不 应 该 讨论 写作 风格 。 


Evan 


有 的 传统 因为 内 在 价值 而 得 以 延续 ， 其 他 传统 不 管 怎 样 也 没有 消 


问 : 欢迎 归来 ， 已 经 过 去 很 多 年 了 。 

答 : 14477 [1] ° 

问 : 让 我 们 继续 上 次 的 问答 吧 ， 为 什么 要 出 这 本 书 的 新 版 ? 

答 : 我 非常 、 非 常 喜 欢 这 本 书 。 写 这 本 书 很 有 趣 ， 这 么 多 年 来 读 
者 也 一 直 非 常 支持 我 。 书 中 的 原理 经 受 住 了 时 间 的 检验 ， 但 第 1 版 中 的 
很 多 例子 已 经 过 时 了 。 现 在 的 读者 很 难 理解 只 有 半 兆 字 节 内 存 的 所 谓 
“巨型 > 计算机。 

[A]: 那 你 在 本 版 中 做 了 哪些 修改 呢 ? 

答 : 很 多 ， 我 在 前 言 中 说 了 这 些 改进 。 你 在 提问 前 没有 看 一 下 
吗 ? 

[A]: R, 对不起。 我 看 到 了 前 言 中 你 说 到 如 何 从 本 书 网 站 上 获取 
代码 。 

答 : 在 完成 第 2 版 的 过 程 中 ， 编 写 这 些 代码 是 最 有 趣 的。 在 第 1 版 
中 我 实现 了 大 多 数 程序 ， 但 只 有 我 目 己 才能 看 到 实际 代码 。 在 第 2 版 
中 ， 我 大 约 编写 了 2 500 行 C 和 C++ 代码 ， 让 全 世界 都 能 看 到 。 

问 : 你 说 这 些 代码 准备 向 大 众 公 开 吗 ? 我 阅读 了 一 部 分 ， 风 格 很 
MER! 变量 名 太 短 ， 函 数 定 义 很 奇怪 ， 一 些 全 局 变量 应 该 作为 参数 ， 
等 等 。 如 果 计 真正 的 软件 工程 师 看 到 这 些 代码 ， 你 不 会 感到 难堪 吗 ? 


答 : 我 用 的 风格 在 大 型 软件 项 目 中 确实 是 致命 的 。 不 过 本 书 不 是 
一 个 大 型 软件 项 目 ， 连 一 本 大 型 的 书 都 算 不 上 。 答 案 5.1 描 述 了 人 简洁 的 
编码 风格 和 我 选择 这 种 编码 风格 的 原因 。 要 是 我 打算 写 一 本 上 千 页 的 
书 ， 我 会 采用 长 一 些 的 编码 风格 。 

A): 说 到 长 代码 ， 你 的 sort.cpp 程 序 度量 了 C 标 准 库 函 数 qsort ` 
C++ 标准 模板 库 函 数 sort 和 几 个 手写 的 快速 排序 函数 的 性 能 。 你 不 能 选 
定 一 个 吗 ? 程序 员 到 底 应 该 使 用 库 芳 数 还 是 应 该 从 头 开始 目 己 编写 代 


码 ? 
Z: Tom Duff 给 出 了 最 佳 答案 :“ 尽 可 能 地 ' 瓷 用’ 已 有 的 代码 。” 库 
函数 很 棱 ， 尽 可 能 地 利用 它们 来 解决 问题 。 首 移 搜索 系统 库 ， 然 后 再 


从 其 他 库 中 寻找 适当 的 函数 。 不 过 ， 在 任何 一 种 工程 活动 中 ， 并 非 所 
有 的 工具 都 总 能 满足 所 有 客户 的 需求 。 当 库 函 数 不 能 满足 需求 时 ， 程 
序 员 束 需要 亲 目 动手 编写 函数 ， 我 希望 书 中 的 伪 代 码 片段 (和 网 站 上 
的 真实 代码 ) 在 这 时 能 派 上 用 场 。 我 认为 ， 本 书 提 供 的 脚手架 和 实验 
方法 能 够 帮助 程序 员 评 佑 各 种 算法 的 性 能 ， 并 从 中 挑选 出 最 佳 算法 。 

H: 除了 向 大 众 公开 代码 并 更 新 一 些 故事 之 外 ， 第 2 版 中 真正 有 新 
意 的 地 方 是 什么 ? F: 我 尝试 看 从 高 速 缓存 和 指令 级 并 行 性 的 角度 来 
考虑 代码 调 优 。 从 更 大 一 些 的 层面 上 讲 ， 新 增 的 3 草 内 容 反 映 了 第 2 版 
中 的 3 个 主要 变动 :第 5 章 描 述 了 真实 的 代码 和 脚手架 ， 第 13 章 给 出 了 
数据 结构 的 细节 ， 第 15 章 派生 出 了 高 级 算法 。 书 中 的 多 数 观点 此 前 已 
发 表 过 ， 但 附录 C 中 的 空间 开销 模型 和 15.3 克 的 马尔 可 夫 文 本 算法 走 
目次 出 现 。 新 的 马尔 可 夫 文 本 算法 决 不 炎 于 Kernighan 和 Pike 提 出 的 经 
典 算法 。 

问 ， 这些 年 来 你 接触 过 的 贝尔 实验 室 的 人 更 多 了 。 从 我 们 上 次 的 
交谈 可 以 看 出 ， 你 对 那个 地 方 非 党 有 感情 。 但 是 你 只 在 那里 未 了 几 年 
的 时 间 ， 贝 尔 实验 室 在 过 去 的 14 年 中 变化 很 大 。 你 怎么 看 待 现在 的 贝 
尔 实 验 室 和 这 些 改变 ? 


答 : 在 我 编写 本 书 前 儿 章 的 时 候 ， 贝 尔 实 验 室 是 贝尔 系统 公司 的 
一 部 分 ， 第 1 版 出 版 的 时 候 ， 我 们 是 AT&T 的 一 部 分 ， 现 在 我 们 是 朗讯 
科技 的 一 部 分 。 在 这 段 时 间 里 ， 公 司 、 通 信 产 业 和 计算 领域 都 发 生 了 
翻天 黎 地 的 变化 。 贝 尔 实 验 室 跟 上 了 这 些 变 化 ， 而 且 往 往 还 是 变 音 的 
先驱 。 我 进入 这 个 实验 室 ， 是 因为 我 喜欢 在 理论 和 应 用 之 间 保 持平 
衡 ， 征 因为 我 既 想 开发 产品 又 想 写 书 。 我 在 贝尔 实验 室 工作 的 这 些 年 
里 ,虽然 时 而 偏向 理论 ， 时 而 偏向 应 用 ， 但 我 的 老板 总 十 求 励 我 从 事 
各 种 各 样 的 活动 。 

本 书 第 1 版 的 一 位 审 稿 人 这 样 写 道 : “Bentley 每 天 的 工作 环境 是 一 
个 编程 天 和 党。 他 是 位 于 新 泽 西 州 莫 雷 山 的 贝尔 实验 室 技 术 部 成 员 ， 能 
够 直接 接触 到 最 先进 的 硬件 和 软件 技术 ， 并 和 全 世界 最 优秀 的 一 些 软 
件 开发 人 员 一 起 进餐 。” 现 在 的 贝尔 实验 至 仍然 是 这 种 地 方 。 

[A]: 每 天 都 生活 在 天 竺 中 吗 ? 

答 : 很 多 日 子 都 好 像 生活 在 天 堂 中 ， 而 其 他 时 光 也 非常 美好 。 


[1]. 本 书 第 1 版 出 版 于 1986 年 ， 第 2 版 出 版 于 2000 年 ， 间 隔 正 好 是 14 


年 。 一 ” 译 者 注 


A ` 


本 书简 击 了 大 学 算法 课 中 的 许多 内 容 ， 但 侧重 点 不 同一 一 我 们 更 
强调 应 用 和 编码 ， 而 不 强调 数学 分 析 。 本 附录 将 有 关内 容 组 织 成 更 标 


准 的 提纲 形式 。 

A.1 排序 

问题 定义 。 输 出 序列 是 输入 序列 的 一 个 有 序 排列 。 如 果 输 入 是 文 
件 ， 则 输出 通常 是 另 一 个 文件 ， 如 果 输 入 是 数组 ， 则 输出 通常 还 是 该 


数组 。 

应 用 。 本 列表 仅 表明 了 排序 应 用 的 多 样 性 。 

和 输出 需求 。 有 上 毕 用 户 需要 得 到 有 序 的 输出 ， 例 如 1.1 节 所 考虑 的 电 
话 号 码 短 及 月 对 账单 ， 而 二 分 搜索 等 函数 的 实现 则 要 求 有 序 的 输入 。 

收集 相同 的 项 。 程 序 员 利 用 排序 来 收集 相同 的 项 : 2.477 A287 
变 位 词 程序 收集 同一 变 位 词类 中 的 单词 ，15.2 广 和 15.3 节 的 后 缀 数组 收 
集 相 同 的 文本 短语 ， 其 他 例子 见习 题 2.6、 习 题 8.10 和 习题 15.8。 

其 他 应 用 。2.4 节 和 2.8 节 的 变 位 词 程序 将 字母 表 顺 序 作为 单词 中 字 
母 的 规范 顺序 ， 并 进而 将 它 作为 变 位 词类 的 标识 ; 习题 2.7 通 过 排序 重 
新 组 织 磁带 上 的 数据 。 

通用 函数 。 下 列 算 法 对 任意 n 元 序列 进行 排序 。 

插入 排序 。11.1 节 的 程序 对 于 最 坏 情况 下 的 随机 输入 ， 运 行 时 间 
为 On?* )。 该 节 用 表格 给 出 了 多 个 程序 变 体 的 具体 运行 时 间 。11.3 节 使 
用 插入 排序 在 O(n) 时 间 内 对 一 个 本 来 就 几乎 有 序 的 数组 进行 了 排序 。 


插入 排序 是 本 书 中 唯一 稳定 的 排序 算法 : 具有 相同 关键 字 的 元 素 在 和 输 
出 序列 和 输入 序列 中 的 相对 顺序 保持 不 变 。 

快速 排序 。11.2 节 的 简单 快速 排序 算法 在 具有 n 个 不 同 元 素 的 数 
组 上 运行 需要 O(n log n) 的 时 间 。 该 算法 是 递归 的 ， 平 均 情况 下 需要 对 
数 大 小 的 栈 空间 ， 最 坏 情况 下 需要 On2 ) 的 时 间 和 O(n) 的 栈 空 间 。 该 算 
法 对 于 所 有 元 素 都 相同 的 数组 ， 运 行 时 间 为 O(n? );，11.3 节 的 改进 版 本 
对 任意 数组 的 平均 运行 时 间 均 为 O(n log n)， 该 节 表 格 中 给 出 了 几 种 具 
体 实现 的 运行 时 间 经 验 数 据 。C 标 准 库 函数 qsort 通 常用 本 算法 实现 ， 
本 书 的 2.8 节 、15.2 广 、15.3 节 和 答案 1.1 用 到 了 该 库 汞 数 。C++ 标 准 库 
函数 sort 通常 也 使 用 本 算法 ，11.3 节 给 出 了 该 库 函 数 的 平均 运行 时 
lA] 。 

堆 排 序 。14.4 节 的 堆 排 序 在 任意 n 元 数组 上 的 运行 时 间 都 是 O(n log 
D)。 该 算法 不 是 递归 的 ， 且 仅 使 用 了 固定 大 小 的 额外 空间 。 答 案 14.1 
和 14.2 描 述 了 更 快 的 堆 排序 。 

其 他 排序 算法 。1.3 节 介绍 的 归并 排序 算法 对 文件 排序 非常 有 效 ， 
习题 14.4.d 概 述 了 一 种 归并 算法 。 管 案 11.6 给 出 了 选择 排序 和 希 尔 排 序 
的 伪 代 码 。 

答案 1.3 给 出 了 几 种 排序 算法 的 运行 时 间 。 

专用 函 数 。 这 些 函 数 能 够 在 特定 的 输入 上 得 到 简短 有 效 的 程序 。 

基数 排序 。 习 题 11.5 中 Mcllroy 的 位 串 排 序 能 够 推广 为 在 更 大 的 字 
EER (例如 字 节 ) 上 对 字符 串 进 行 排序 。 

位 图 排序 。1.4 市 的 位 图 排序 利用 到 了 如 下 事实 : 待 排序 的 整数 通 
种 在 小 范围 内 ， 无 重复 元 素 也 没有 多 余数 据 。 答 案 1.2、1.3、1.5 和 答 
案 1.6 描 述 了 实现 细节 和 扩展 。 

其 他 排序 。1.3 广 的 多 遍 排 序 多 次 读 取 输入 文件 ， 用 时 间 换 取 空 
间 。 第 12 草 和 第 13 章 生成 了 随机 整数 的 有 序 集合 。 


A.2 搜索 

问题 定义 。 搜 索 函 数 判断 其 输入 是 否 为 给 定 集合 的 成 员 ， 可 能 还 
要 检索 相关 的 信息 。 

应 用 。 习 题 2.6 中 ，Lesk 的 程序 通过 搜索 电话 号 码 秒 ， 将 (编码 后 
的 ) 姓名 转换 为 电话 号 码 。10.8 节 中 Thompson 的 残局 程序 通过 搜索 
棋盘 来 计算 最 优 的 走 法 。13.8 节 中 Mcllroy 的 拼写 检查 器 通过 搜索 字典 
来 判断 单词 是 否 拼 写 正确 。 其 他 应 用 跟 函 数 一 起 介绍 © 

通用 函数 。 下 列 算法 对 任意 n 元 集合 进行 搜索 。 

顺序 搜索 。9.2 节 给 出 了 在 数组 中 进行 顺序 搜索 的 简单 版 本 和 调 优 
版 本 。13.2 节 给 出 了 数组 和 链表 中 的 顺序 搜索 。 本 算法 可 用 于 给 单词 
添加 连 字 符 (习题 3.5) 、 平 滑 地 理 数据 (9.2 节 ) ` BAR AEE 

(10.277) 、 生 成 随机 集合 〈13.2 节 ) 、 存 储 压 缩 的 字典 (13.8 节 ) ` 
装 箱 问题 (习题 14.5) 以 及 查找 所 有 相同 的 文本 短语 (15.3 节 ) 。 第 3 
章 的 简介 和 习题 3.1 描 述 了 两 种 比较 愚蠢 的 顺序 搜索 实现 。 

二 分 搜索 。2.2 节 介绍 了 这 个 大 约 需 要 log, n 次 比较 来 搜索 一 个 有 
序数 组 的 算法 ， 相 应 的 代码 在 4.2 节 给 出 。9.3 节 扩展 了 代码 以 查找 许多 
相同 项 的 首次 出 现 ， 并 对 代码 的 性 能 进行 了 调 优 。 算 法 的 应 用 包括 在 
预订 系统 (2.277) 、 错 误 的 输入 行 (2.2 节 ) 、 输 入 单词 的 变 位 词 

(习题 2.1) 、 电 话 号 码 (习题 2.6) 、 线 段 交 点 的 位 置 (习题 4.7) 
fi RAZA PIAS) (10.2) 、 随 机 整数 (习题 13.3) 和 短语 
(15.2 节 和 15.3 节 ) 中 搜索 记录 。 习 题 2.9 和 习题 9.9 讨 论 了 二 分 搜索 和 
顺序 搜索 之 间 的 折 中 。 

散 列 。 习 题 1.10 对 电话 号 码 进行 了 散 列 ， 习 题 9.10 对 一 组 整数 进行 
了 散 列 ， 13.4 节 用 箱 对 一 组 整数 进行 了 散 列 ，13.8 节 对 字典 中 的 单词 
进行 了 散 列 ，15.1 节 通过 散 列 方法 对 文档 中 的 单词 进行 了 计数 。 


二 分 搜索 树 。13.3 节 使 用 ( 非 平衡 的 ) 二 分 搜索 树 来 表示 一 组 随 
机 整数 。 通 常用 平衡 树 实现 C++ 标准 模板 库 中 的 Set 模板 ， 我 们 在 13.1 
节 、15.1 节 和 答案 1.1 中 都 用 到 了 set 模 板 。 

专用 函数 。 这 些 函 数 能 够 在 特定 的 输入 上 得 到 简短 有 效 的 程序 。 

关键 字 索 引 。 一 些 关 键 字 可 以 用 作 数 组 的 索引 。13.4 节 的 箱 和 位 
向 量 都 使 用 整数 关键 字 作 为 索引 。 用 作 索 引 的 关键 字 包括 电话 号 码 
(1.45) 、 字 符 (答案 9.6) 、 三 角 函 数 的 参数 (习题 9.11) ` TAL 
组 的 索引 (10.2 节 ) 、 程 序 计 数 器 的 值 (习题 10.7) ` HA (10.8 
T) 、 随 机 整数 (13.479) 、 字 符 串 的 散 列 值 (13.8 市 ) 和 优先 级 队列 
中 的 整数 值 (习题 14.8) 。 习 题 10.5 利 用 关键 字 索 引 和 数值 函数 节省 了 
空间 。 

其 他 方法 。9.1 届 描述 了 如 何 通过 将 常用 元 素 保 存在 高 速 缓存 中 来 
减少 搜索 时 间 ，10.1 节 描述 了 在 理解 问题 背景 的 基础 上 简化 对 税收 表 
格 的 搜索 的 过 程 。 

A.3 其 他 集合 算法 

这 些 算法 用 于 处 理 可 能 包含 重复 元 素 的 n 元 集合 。 

优先 级 队列 。 对 优先 级 队列 可 以 进行 插入 任意 元 素 和 删除 最 小 元 
素 这 两 种 操作 。14.3 闻 介绍 了 实现 优先 级 队列 的 两 种 顺序 结构 ， 并 给 
出 了 一 个 用 堆 高 效 实现 优先 级 队列 的 C++ 类 。 习 题 14.4、 习 题 14.5 和 习 
题 14.8 描 述 了 其 应 用 。 

选择 算法 。 在 习题 2.8 中 我 们 必须 选择 出 集合 中 第 k 个 最 小 的 元 
素 ， 答 案 11.9 给 出 了 一 个 有 效 的 算法 ， 其 他 算法 见 答案 2.8、11.1 和 
14.4.c ° 

AA 字符 串 算法 

2.4 节 和 2.8 节 计算 了 字典 中 的 变 位 词 集合 。 答 案 9.6 描 述 了 几 种 对 
字符 进行 分 类 的 方法 。15.1 节 列 出 了 文件 中 的 不 同 单词 并 对 每 个 单词 
进行 了 计数 ， 在 此 过 程 中 先后 用 到 了 C++ 标准 模板 库 和 定制 的 散 列 


表 。15.2 广 用 后 缀 数组 查找 文本 文件 中 最 长 的 重复 子 串 ，15.3 贡 使 用 了 
后 组 数组 的 一 种 变 体 由 马尔 可 夫 模 型 生成 随机 文本 。 
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2.3 给 出 了 相应 的 代码 。 习 题 2.5 描 述 了 一 种 交换 向 量 中 非 相 邻 子 序列 的 
算法 。 习 题 2.7 利 用 排序 对 人 磁带 上 的 矩阵 进行 转 置 操 作 。 习 题 4.9、 习 题 
9.4 和 习题 9.8 描 述 了 计算 向 量 中 最 大 值 的 程序 。10.3 方 和 14.4 广 摘 述 了 
共享 空间 的 向 量 算法 和 和 抢 阵 算法 。3.1 节 、10.2 节 和 13.8 节 讨论 了 稀 玻 
问 量 和 稀 芷 矩阵 ， 习 题 1.9 摘 述 了 一 种 对 稀 中 回 量 进行 初始 化 的 方案 
《该 方案 用 在 10.2 节 中 ) 。 第 8 章 描述 了 计算 向 量 最 大 和 子 序列 的 5 种 
Bis, BRS IL TUR SRE RX o 

A.6 随机 对 象 

对 生成 伪 随 机 整数 的 函数 的 使 用 贯穿 全 书 ， 这 些 函 数 在 答案 12.1 
中 实现 。12.3 节 描述 了 一 个 “ 打 乱 ”数组 中 元 素 的 算法 。12.1 节 到 12.3 玫 
描述 了 选择 集合 中 随机 子 集 的 几 种 算法 〈 另 见习 题 12.7 和 习题 12.9) 。 
习题 1.4 给 出 了 该 算法 的 应 用 。 答 案 12.10 给 出 了 从 一 组 数量 未 知 的 对 象 
中 随机 选择 一 个 的 算法 。 

A.7 数值 算法 

答案 2.3 给 出 了 计算 两 个 整数 的 最 大 公约 数 的 欧 几 里 得 算法 。 习 题 
3.2 讨 论 了 对 常 系数 线性 递归 求 值 的 算法 。 习 题 4.9 给 出 了 计算 正 整数 次 
震 的 高 效 算法 代码 。 习 题 9.11 通 过 查 表 计算 三 角 画 数 。 答 案 9.12 撕 述 了 
对 多 项 式 求 值 的 Horner 方 法 。 习 题 11.1 和 习题 14.4.b 描 述 了 如 何 对 大 型 
浮 点 数 集合 求 和 。 


x 


B Nt; 


第 7 章 的 粗略 估算 都 是 从 基本 数量 开始 的 。 在 问题 的 规范 说 明 (如 
需求 文档 ) 中 有 时 能 够 看 到 这 些 数 值 ， 但 其 他 时 候 必 须 对 它们 进行 佑 
ce 

设计 这 个 小 测试 古 为 了 帮助 你 评估 目 己 的 数值 估算 熟练 程度 。 对 
于 每 个 问题 ， 请 根据 目 己 的 观点 填 入 上 下 界 ， 使 目 己 有 90% 的 机 会 将 
真实 值 包含 在 其 中 ， 同 时 尽量 不 要 把 范围 设 得 太 罕 或 太 宽 。 测 试 大 约 
需要 5 一 10 分 钟 ， 请 认真 对 待 (为 后 续 读 者 考虑 ， 最 好 在 本 页 的 复印 件 
上 完成 这 个 测试 ) 。 


[L s 1]2000 年 1 月 1 日 美国 的 人 口 数量 ， 以 百 万 为 单 
位 。 

[  ， 1] 拿破仑 的 出 生年 份 。 

[PP KE, De A Ae o 

[sO RAT ALA KEE, DAA o 

[  ，， |] 无 线 电 信号 从 地 球 传播 到 月 球 所 需 的 秒 数 。 

[Od ERWA e 

[ ] 航天 飞机 绕 地 球 一 圈 所 需 的 分 钟 数 。 

[  ，，  _] 金 门 大 桥 两 座 钢 塔 之 间 的 距离 ， 以 英尺 为 单 
位 。 

[  ，， |] 独 立 宣言 的 署名 人 数 。 

[ ，_ _] 成 年 人 体 的 骨头 块 数 。 


完成 测试 后 ， 请 翻 到 下 一 页 查看 答案 和 解释 。 


请 在 翻 到 下 一 页 之 前 回答 上 述 问 题 。 

如 果 你 还 没有 独立 填 完 所 有 的 空格 ， 请 回 到 上 一 页 完成 测试 。 下 
面 是 问题 的 答案 ， 来 自 于 年 鉴 或 类 似 的 资源 。 

2000 年 1 月 1 日 ， 美 国 的 人 口 数量 为 27 250 万 。 

拿破仑 出 生 于 1769 年 。 

密西西比 -密苏里 河 的 长 度 为 3 710 英 里 。 

波音 747-400 客 机 的 最 大 起 飞 重 量 为 875 000 磅 。 

无 线 电 信号 从 地 球 传播 到 月 球 需 要 1.29 秒 。 

伦敦 的 纬度 约 为 51.5°。 

航天 飞机 绕 地 球 一 圈 约 需 91 分 钟 。 

金门 大 桥 两 座 钢 塔 之 间 的 距离 为 4 200 英 尺 。 

独立 宣言 的 署名 人 数 为 56。 

成 年 人 体 有 206 块 骨头 。 

请 数 一 下 你 给 出 的 范围 中 有 几 个 包含 了 正确 答案 。 由 于 你 使 用 了 
90% 的 置信 区 间 ， 因 此 在 这 10 个 答案 中 应 该 有 9 个 是 正确 的 。 

如 果 你 的 所 有 10 个 答案 都 是 正确 的 ， 那 么 你 可 能 是 一 个 优秀 的 估 
BA; 当然 也 可 能 是 因为 你 给 出 的 范围 非常 大 ， 那 样 的 话 你 什么 都 能 
猜 对 。 

如 果 你 的 正确 答案 不 超过 6 个 ， 那 么 你 可 能 像 我 第 一 次 做 类 似 的 估 
算 测 试 时 一 样 乾 从 ， 你 需要 一 些 练习 来 提高 自己 的 估算 能 

如 果 你 答对 了 7 或 8 道 题 ， 那 么 你 是 一 个 很 不 错 的 估算 者 ， 以 后 请 
记 住 将 90% 的 范围 再 放宽 一 些 。 

如 果 你 正好 有 9 个 答案 是 正确 的 ， 那 么 你 可 能 是 一 个 优秀 的 估算 
者 。 当 然 ， 如 果 你 对 前 面 9 个 问题 给 出 的 范围 是 无 穷 大 ， 而 对 最 后 一 个 
问题 给 出 的 范围 为 0， 那 么 你 应 当 感 到 羞愧 。 


C 时 空 开销 模型 


7.2 廊 描 述 了 两 个 用 来 估算 各 种 基本 运算 时 空 开 销 的 小 程序 ， 本 附 
录 展 示 了 如 何 将 它们 扩展 成 一 整 页 的 时 间 和 空间 估算 程序 。 本 书 网 站 
上 提供 了 这 两 个 程序 的 完整 源 代码 。 

程序 spacemod.cpp 为 C++ 中 的 各 种 结构 提供 了 一 种 空间 开销 模 
型 。 程 序 的 第 1 部 分 使 用 


cout << "sizeof(char)=" << sizeof(char); 


cout << " sizeof(short)=" << sizeof(short); 
之 类 的 语句 序列 对 基本 对 象 进行 了 精确 度量 : 


sizeof(char)=1 sizeof(short)=2 sizeof(int)=4 


sizeof(float)=4 sizeof(struct *)=4 sizeof(long)=4 

sizeof(double)=8 

该 程序 还 使 用 如 下 的 命名 习惯 定义 了 十 多 个 结构 : 

struct structc { char c; }; 

struct structic { int i; char c; }; 

struct structip { int i; structip *p; }; 

struct structdc { double d; char c; }; 

struct structcl2 { char c[12]; }; 

程序 定义 了 一 个 宏 ， 在 该 宏 定义 中 ， 首 先 给 出 相应 结构 的 sizeof 
信息 ， 然 后 用 类 似 下 面 的 形式 给 出 对 new 分 配 的 字 世 数 的 估计: 

structc 1 48 48 48 48 48 48 48 48 48 48 

structic 8 48 48 48 48 48 48 48 48 48 48 


Structip 8 48 48 48 48 48 48 48 48 48 48 
structdc 16 6464 64 64 64 64 64 64 64 64 
structed 16 6464 64 64 64 64 64 64 64 64 
structcdc 24 -3744 4096 64 64 64 64 64 64 64 64 
structiii 12 48 48 48 48 48 48 48 48 48 48 
每 行 的 第 一 个 数 由 sizeof 给 出 ， 接 下 来 的 10 SAAR T new 返 
回 的 连续 指针 之 间 的 送别 。 这 个 输出 是 很 常见 的 : 大 部 分 数 都 是 一 致 
的 ， 但 是 分 配 万 偶尔 会 突然 地 跳跃 一 下 。 
这 个 宏 输出 一 行内 容 : 
#define MEASURE(T,text) { \ 
cout << text << "\t"; \ 
cout << sizeof(T) << "\t"; \ 


int lastp = 0; \ 


—_— 


for (int i = 0; i < 11; i++) { 
T *p = new T; \ 
int thisp = (int) p; \ 
if (lastp != 0) \ 
cout <<" " << thisp -lastp; \ 
lastp = thisp; \ 
} \ 
cout << "\n"; \ 
} 
调用 这 个 宏 需 要 两 个 参数 ， 第 一 个 参数 是 结构 名 ， 第 二 个 参数 是 
包含 在 引号 中 的 相同 名 字 : 
MEASURKE(structc,"structc"); 
(我 的 第 一 份 草稿 使 用 了 带 有 结构 类 型 参数 的 C++ 模板 ， 但 是 
C++ 实现 的 人 为 因素 会 导致 度量 结果 差别 很 大 。) 


下 表 总 结 了 该 程序 在 我 机 右上 的 输出 结果 : 


结 构 new 分 配 的 空间 
int 48 
structc 48 
structic 48 
structip 48 
structdc 64 
structcd 64 
structcdc 64 
structili 48 
structiic 48 
structc|2 48 
structc13 64 
structc28 64 
structc29 80 


左边 一 列 数 帮助 我 们 估算 结构 的 sizeof 信息 。 估 算 时 首先 对 结构 
中 所 有 类 型 的 sizeof 求 和 ， 这 就 解释 了 为 什么 structip 的 sizeof 是 8 字 
万 。 此 外 ， 我 们 还 必须 考虑 对 齐 问 题 : 尽管 structcdc 结构 的 组 成 部 分 
总 共 需 要 10 个 字 节 (两 个 char 和 一 个 double) ， 但 是 存储 structcdc 需 
要 24 个 字 节 。 

右边 一 列 给 出 了 new 运 算 符 分 配 的 空间 。 可 以 看 出 ， 对 于 sizeof 不 
超过 12 字 节 的 结构 ， 需 要 分 配 的 空间 都 是 48 字 市 ;sizeof 从 13 字 节 到 


28 字 节 的 结构 需要 64 字 世 的 空间 。 一 般 说 来 ， 分 配 的 块 大 小 是 16 的 倍 
数 ， 约 有 36 字 世 一 47 字 节 的 额外 开销 [1] ， 这 样 的 开销 是 很 大 的 ， 我 
使 用 的 其 他 系统 在 表示 8 字 节 的 记录 时 只 需要 8 字 市 的 额外 开销 。 

7.2 下 还 描述 了 一 个 估算 特定 C 运 算 开 销 的 小 程序 。 我 们 可 以 将 它 
一 般 化 为 一 个 一 整 页 的 timemod.c 程序 ， 用 于 为 一 组 C 运算 提供 时 间 
开销 模型 。 (该 程序 的 前 身 由 Brian Kernighan ` Chris Van Wyk 和 我 于 
1991 年 编写 。) 程序 的 main 函 数 包含 了 一 系列 的 T (标题 行 和 紧 随 
其 后 的 M 行 来 度量 运算 的 开销 : 

T("Integer Arithmetic"); 

M({}); 

M(k++); 

M(k =1 + j); 

M(k =i- j); 


这 些 行 〈 以 及 一 些 类 似 的 行 ) 会 产生 如 下 的 输出 : 
Integer Arithmetic (n=5000) 


{} 250 261 250 250 251 10 
k++ 471 460 471 461 460 19 
k=i+j 491 491 500 491 491 20 
k=i-j 440 441 441 440 441 18 
k=i*j 491 490 491 491 490 20 
k=i/j 2414 2433 2424 2423 2414 97 
k=i%j 2423 2414 2423 2414 2423 97 
k=i&j 491 491 480 491 491 20 
k=ilj 440 441 441 440 441 18 


第 一 列 给 出 了 循环 体内 执行 的 运算 
for i = [1,n] 


for j = [1,n] 
op 

接 下 来 的 5 列 给 出 了 该 循环 5 次 执行 的 时 钟点 击 时 间 [2] (本 系统 
DMA) 。 (这 些 时 间 应 该 是 一 致 的 ， 不 一 致 的 数值 能 够 帮助 
我 们 发 现 可 疑 的 运行 。) 最 后 一 列 以 纳 秒 为 单位 给 出 了 每 个 运算 的 平 
均 开 销 。 第 一 行 说 明 执 行 空 循环 体 需 要 10 纳 秒 ， 下 一 行 说 明 使 变量 k 
目 增 大 约 需 要 9 纳 秒 的 额外 时 间 。 除 了 除法 和 模 运 算 的 开销 高 一 个 数量 
级 外 ， 所 有 算术 和 逻辑 运算 所 需 的 开销 基本 相同 。 

这 个 方法 给 出 了 我 机 右上 的 粗略 估算 ， 不 作 过 多 解释 。 在 实验 过 
程 中 ， 我 把 优化 选项 都 禁用 了 ， 因 为 局 用 优化 选项 后 ， 优 化 器 会 删除 
计时 循环 ， 导 致 所 有 的 时 间 都 为 零 。 

这 一 工作 是 通过 M 宏 完成 的 ， 如 下 面 的 伪 代 码 所 示 : 

#define M(op) 

print op as a string 
timesum = 0 
for trial = [0,trials) 
start = clock() 
for i = [1,n] 
fi=i 
for j = [1,n] 
op 
t= clock()-start 
print t 
timesum += t 
print 1e9*timesum / (n*n * trials * CLOCKS_PER_SEC) 
该 开销 模型 的 完整 代码 可 以 在 本 书 网 站 上 找到 。 


下 面 我 们 来 看 看 该 程序 在 我 机 器 上 的 输出 结果 。 由 于 时 钟点 击 是 
一 致 曲 ， 我 们 将 其 忽略 ， 只 给 出 以 纳 秒 为 单位 的 平均 时 间 。 
Floating Point Arithmetic (n=5000) 
fj=j; 18 
fj=j; fk = fi + fj 26 
fj=j; fk = fi — fj 27 
fj=j; fk = fi * fj 24 
fj=j; fk = fi / fj 78 
Array Operations (n=5000) 


k=itj 17 
k =X[i +j 18 
k=i+x{j] 24 
k = x[i] + x[j] 27 
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循环 中 ， 我 们 将 整数 ij 的 值 赋 给 了 浮 点 数 企 。 浮 点 运算 本 身 的 开销 跟 相 
应 的 整数 运算 差不多 ， 数 组 运算 的 开销 也 都 不 大 。 
下 面 的 输出 结果 有 助 于 我 们 对 一 般 的 控制 流 和 一 些 特定 排序 操作 
的 理解 : 
Comparisons (n=5000) 
if (i<j) k++ 20 
if (x[i] < x[j]) k++ 25 

Array Comparisons and Swaps (n=5000) 
k = (x[i]<x[k]) ?-1:1 34 
k = intcmp(x+i,x+)j) 52 
swapmac(i,j) 41 


swapfunc(i,j) 65 


比较 和 交换 操作 的 函数 版 本 比 内 联 版 本 的 开销 多 20 纳 秒 。9.2 市 比 
较 了 使 用 范 数 、 宏 和 内 联 代 码 计 算 两 个 值 中 的 最 大 值 的 开销 : 


Max Function,Macro and Inline (n=5000) 


k=(i>j)?i:j 26 
k = maxmac(i,j) 26 
k = maxfunc(i,j) 54 


rand 函数 的 开销 相对 较 小 〈 不 过 bigrand 函数 需要 调用 两 次 
rand) ， 开 方 运算 的 开销 比 基 本 算术 运算 大 一 个 数量 级 (尽管 只 是 除 
法 运算 的 两 倍 ) ， 人 简单 三 角 函 数 运 算 的 开销 是 开 方 的 两 倍 ， 而 高 级 三 
FA ER BNI FM) Fs Be GLY AY I] 。 

Math Functions (n=1000) 


k = rand() 40 
fk = j+fi 20 
fk = sqrt(j+fi) 188 

fk = sin(j+fi) 344 
fk = sinh(j+fi) 2229 
fk = asin(j+fi) 973 

fk = cos(j+fi) 353 
fk = tan(j+fi) 465 


由 于 这 些 操作 的 开销 较 高 ， 我 们 缩小 了 n 的 值 ， 但 内 存 分 配 的 开销 
却 更 大 ， 需 要 更 小 的 n: 

Memory Allocation (n=500) 

free(malloc(16)) 2484 

free(malloc(100)) 3044 

free(malloc(2000)) 4959 


[1]. 对 于 sizeof 不 超过 12 字 市 的 结构 而 言 。 一 一 译 者 注 


[2]. 执行 前 后 时 钟点 的 差 ， 用 于 计时 。 一 一 译 者 注 


KD 代码 调 优 法 见 


我 1982 年 的 Writing Efficient Programs 一 书 为 代码 调 优 提供 了 27 个 
法 则 。 该 书 现 已 绝版 ， 因 此 我 在 这 里 再 次 列 出 那些 法 则 (只 作 了 一 些 
很 小 的 改动 ) ， 并 给 出 它们 在 本 书 中 的 应 用 示例 。 

D.1 空间 换 时 间 法 则 

修改 数据 结构 。 为 了 减少 数据 上 的 常见 运算 所 需要 的 时 间 ， 我 们 
通常 可 以 在 数据 结构 中 增加 额外 的 信息 ， 或 者 修改 数据 结构 中 的 信息 
使 之 更 易 访 问 。 

9.2 方 中 ，Wright 锅 望 在 一 组 用 经 纬度 表示 的 球面 的 点 中 查找 最 近 
J (利用 角度 ) ， 这 项 工作 涉及 费时 的 三 角 函 数 运算 。Appel 修 改 了 数 
据 结构 ， 用 x、y 和 z 坐 标 代 替 了 经 纬度 ， 从 而 大 大 减少 了 计算 欧 氏 距离 
的 时 间 。 

存储 预先 计算 好 的 结果 。 对 于 开销 较 大 的 函数 ， 可 以 只 计算 一 
次 ， 然 后 将 计算 结果 存储 起 来 以 减少 开销 。 以 后 再 需要 该 函数 时 ， 可 
以 直接 查 表 而 不 需要 重 狐 计算 。 

8.2 玫 和 答案 8.11 的 累加 数组 使 用 两 次 查 表 和 一 次 减法 来 代替 一 系 
列 的 加 法 。 

答案 9.7 通 过 一 次 查找 一 个 字 节 或 单词 来 加 速 程序 对 位 的 计数 。 

答案 10.6 使 用 表 碍 找 奉 代 了 移 位 和 逻辑 运算 。 

高 速 绥 存 。 最 经 常 访问 的 数据 ， 其 访问 开销 应 该 是 最 小 的 。 

9.1 廊 描述 了 Van Wyk 如 何 缓存 最 常用 的 结 点 大 小 ， 以 避免 对 系统 
存储 分 配器 的 高 开销 调用 。 答 案 9.2 给 出 了 一 种 结 点 缓存 的 细节 。 


第 13 章 为 链表 、 箱 和 二 分 搜索 树 缓存 了 结 点 。 

如 果 没 有 指明 在 基本 数据 中 的 位 置 ， 那 么 高 速 缓存 束 达 不 到 期 望 
的 效果 ， 只 会 增加 程序 的 运行 时 间 。 

懒惰 求 值 。 除 非 需要 ， 否 则 不 对 任何 一 项 求 值 。 这 一 策略 可 以 避 
免 对 不 必要 的 项 求 值 。 

D.2 时 间 换 空间 法 则 

堆积 。 密 集 存 储 表示 可 以 通过 增加 存储 和 检索 数据 所 需 的 时 间 来 
减少 存储 开销 。 

10.2 方 的 稀疏 数组 表示 只 稍微 增加 了 一 些 访问 该 结构 的 时 间 ， 却 
大 大 减少 了 存储 开销 。 

13.8 广 中 Mcllroy 的 拼写 检查 器 字典 将 75 000 个 英语 单词 压缩 到 了 
52 KB ° 
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技术 ， 通 过 在 同一 内 存 空 间 中 存储 不 可 能 被 同时 调用 的 数据 项 来 节省 


数据 空间 © 
尽管 堆积 有 了 时 通过 牺牲 时 间 来 获取 空间 ， 但 是 这 种 较 小 的 表示 方 
式 处 理 起 来 通常 更 快 。 


解释 程序 。 使 用 解释 程序 通常 可 以 减少 表示 程序 所 需 的 空间 ， 在 
解释 程序 中 常见 的 操作 序列 以 一 种 紧凑 的 方式 表示 。 

3.2 世 为 “格式 信 团 编程 ”使 用 了 解释 程序 ，10.4 世 为 一 个 简单 的 图 
形 程序 使 用 了 解释 程序 。 

D.3 循环 法 则 

将 代码 移出 循环 。 与 其 在 循环 的 每 次 迭代 时 都 执行 一 次 某 种 计 
算 ， 不 如 将 其 移 到 循环 体外 ， 只 计算 一 次 。 

11.1 节 将 对 变量 t 的 赋值 移出 了 isort 2 的 主 循环 。 

合并 测 斌 条件。 高效 的 内 循环 应 该 包含 尽量 少 的 测试 条 件 ， 最 好 
只 有 一 个 。 因 此 ， 程 序 员 应 尽量 用 一 些 退 出 条 件 来 模拟 循环 的 其 他 退 


出 条 件 。 

哨兵 是 该 法 则 的 和 常见 应 用 :在 数据 结构 的 边界 上 放 一 个 哨兵 以 减 
少 测试 是 否 已 搜索 结束 的 开销 。9.2 节 在 顺序 搜索 数组 时 用 到 了 哨兵 。 
第 13 章 使 用 哨兵 为 数组 、 链 表 、 箱 和 二 分 搜索 树 生 成 清晰 (而 且 高 
效 ) 的 代码 。 答 案 14.1 在 堆 的 一 端 放 置 了 一 个 哨兵 。 

循环 展开 。 循 环 展开 可 以 减少 修改 循环 下 标的 开销 ， 对 于 避免 管 
道 延 迟 、 减 少 分 支 以 及 增加 指令 级 的 并 行 性 也 都 很 有 帮助 。 

展开 9.2 市 的 顺序 搜索 大 约 能 将 运行 时 间 缩 短 50%， 展 开 9.3 节 的 二 
分 搜索 可 以 使 运行 时 间 缩 短 35%~65%。 

删除 赋值 。 如 果 内 循环 中 很 多 开销 来 自 普 通 的 赋值 ， 通 常 可 以 通 
过 重复 代码 并 修改 变量 的 使 用 来 删除 这 些 赋 值 。 具 体 说 来 ， 删 除 赋值 ; 
=j 后 ， 后 续 的 代码 必须 将 j 视 为 i。 

消除 无 条 件 分 文 。 快 速 的 循环 中 不 应 该 包含 无 条 件 分 文 。 通 过 * 旋 
转 ” 御 环 ， 在 底部 加 上 一 个 条 件 分 文 ， 能 够 消除 循环 结束 处 的 无 条 件 分 
支 。 

该 操作 通常 由 优化 的 编译 器 完成 

循环 合并 。 如 采 两 个 相 邻 的 循环 作用 在 同一 组 元 素 上 ， 那 么 可 以 
合并 其 运算 部 分 ， 仅 使 用 一 组 循环 控制 操作 。 

D.4 逻辑 法 则 

利用 等 价 的 代数 表达 式 。 如 果 逻 辑 表 达 式 的 求 值 开销 太 大 ， 束 将 
其 替换 为 开销 较 小 的 等 价 代数 表达 式 。 

短路 单调 函数 。 如 果 我 们 想 测 试 几 个 变量 的 单调 非 递 减 范 数 是 否 
超过 了 某 个 特定 的 阐 值 ， 那 么 一 旦 达到 这 个 阔 值 就 不 再 需要 计算 任何 
变量 了 。 

该 法 则 的 一 个 更 成 熟 的 应 用 就 是 ， 一 旦 达到 了 循环 的 目的 就 退出 
循环 。 第 10 章 、 第 13 章 和 第 15 章 中 的 搜索 循环 都 是 一 旦 找到 所 需 的 元 
素 就 终止 。 


对 测试 条 件 重 新 排序 。 在 组 织 逻 辑 测 试 的 时 候 ， 应 该 将 低 开销 
的 、 经 常 成功 的 测试 放 在 高 开销 的 、 很 少 成 功 的 测试 前 面 。 

答案 9.6 人 简要 介绍 了 一 系列 可 能 已 重新 排 过 序 的 测试 。 

预 完 计 算 逻 辑 范 数 。 在 比较 小 的 有 限 域 上 ， 可 以 用 查 表 来 取代 这 
FE EK BL ° 
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消除 布尔 变量 。 我 们 可 以 用 if - else 语 句 来 取代 对 布尔 变量 v 的 赋 
值 ， 从 而 消除 程序 中 的 布尔 变量 。 在 该 if - else 语 句 中 ， 一 个 分 文 表示 Vv 
为 真 的 情况 ， 男 一 个 分 支 表 示 v 为 假 的 情况 。 

D.5 过 程 法 则 

打破 函数 层次 。 对 于 GERI) 调用 自身 的 函数 ， 通 常 可 以 通 
过 将 其 改写 为 内 联 版 本 并 固定 传 入 的 变量 来 缩短 其 运行 时 间 。 

使 用 宏 蕉 代 9.2 市 的 max 函 数 ， 几 乎 能 够 使 速度 提高 1 倍 。 

把 11.1 节 的 Swap 函数 改 写 为 内 联 版 本 ， 几 乎 可 以 使 速度 变 为 原来 
的 3 们 ;而 把 11.3 市 的 swap 范 数 改 为 内 联 版 本 ， 速 度 提升 的 比例 束 小 一 
ape 
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处 理 津 见 情 况 。 

9.1 广 中 ，Van Wyk 的 存储 分 配 带 能 正确 处 理 所 有 结 点 大 小 ; 对 于 
最 常见 的 结 点 大 小 ， 程 序 的 处 理 效率 尤其 高 。 

6.1 广 中 ，Appel 使 用 专用 的 小 时 间 步 长 处 理 高 开销 的 邻近 对 和 象 ， 
这 束 使 得 程序 的 其 他 部 分 可 以 使 用 更 为 融 效 的 大 时 间 步 长 。 

协同 程序 。 通 常 ， 使 用 协同 例 程 能 够 将 多 趟 算法 转换 为 单 趟 算 
1% © 
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缩短 。 


将 递归 重 写 为 迭代 ， 如 第 13 章 的 链表 和 二 分 搜索 树 。 通 过 使 用 一 
个 显 式 的 程序 栈 将 递归 转化 为 迭代 。 (如 果 函 数 仅 包 含 一 个 对 其 自身 
的 递归 调用 ， 那 么 就 没有 必要 将 返回 地 址 存储 在 栈 中 ) e 

如 有 条 函 数 的 最 后 一 步 是 递归 调用 其 目 身 ， 那 么 使 用 一 个 到 其 第 一 
条 语句 的 分 支 来 蔡 换 该 调用 ， 这 通常 称 为 消除 尾 递 归 。 管 案 11.9 的 代 
码 给 出 了 一 个 尾 递 归 的 例子 ， 该 分 文 往往 可 以 转换 为 一 个 循环 ， 通 篆 
由 编译 器 来 执行 这 一 优化 。 

解决 小 的 子 问题 时 ， 使 用 辅助 过 程 通常 比 把 问题 的 规模 变 为 0 或 1 
WAX 

11.3 节 的 qsort4 函 数 用 到 了 一 个 接近 50 的 小 整数 cutoff 值 。 

并 行 性 。 在 底层 硬件 条 件 下 ， 我 们 构建 的 程序 应 该 尽 可 能 多 地 控 


据 并 行 性 。 

D.6 表达 式 法 则 

编译 时 初始 化 。 在 程序 执行 之 前 ， 应 该 对 尽 可 能 多 的 变量 初始 
化 。 


利用 等 价 的 代数 表达 式 。 如 果 表 达 式 的 求 值 开销 太 大 ， 就 将 其 替 
换 为 开销 较 小 的 等 价 代 数 表 达 式 。 

9.2 节 中 ，Appel 用 乘法 和 加 法 取代 了 高 开销 的 三 角 函 数 运算 ， 并 
利用 单调 性 消除 了 高 开销 的 开 方 运算 。 

9.2 节 使 用 开销 较 小 的 许 语句 替换 了 内 循环 中 高 开销 的 C 取 模 运 算 
符 %。 

乘 以 或 除 以 2 的 害 通 常 可 以 通过 左 移 或 右 移 来 实现 。 答 案 13.9 把 箱 
所 使 用 的 任意 除法 替换 为 移 位 。 答 案 10.6 把 除 以 10 的 运算 替换 为 移动 4 
位 。 

6.1 节 中 ，Appel 充分 利用 了 数据 结构 所 提供 的 额外 精度 ， 用 更 为 
快速 的 32 位 浮 点 数 蔡 换 了 64 位 浮 点 数 。 


用 加 法 奉 代 乘法 ， 降 低 数 组 元 宗 上 的 循环 强度 。 很 多 编译 器 进行 
了 这 一 优化 。 这 种 方法 可 以 推广 为 一 大 类 增 量 算法 。 

消除 公共 子 表达 式 。 如 采 两 次 对 同一 个 表达 式 求 值 时 ， 其 所 有 变 
量 都 没有 任何 改动 ， 那 么 我 们 可 以 用 下 面 的 方法 避免 第 二 次 求 值 : 存 
储 第 一 次 的 计算 结果 并 用 其 取代 第 二 次 求 值 。 

现代 编译 硕 都 能 消除 不 包含 画 数 调用 的 公共 子 表达 式 。 

成 对 计算 。 如 果 经 第 需要 对 两 个 类 似 的 表达 式 一 起 求 值 ， 那 么 区 
应 该 建立 一 个 新 的 过 程 ， 将 它们 成 对 求 值 。 

13.1 市 中 ， 我 们 的 第 一 个 盆 代 码 总 是 同时 使 用 成 员 函 数 和 insert 
玉 数 。 如 果 insert 函 数 的 参数 已 经 在 集合 中 ，C++ 代 码 束 使 用 不 完成 任 
何 操 作 的 insert 奉 代 这 两 个 函数 。 

利用 计算 机 字 的 并 行 性 。 用 底层 计算 机 体系 结构 的 全 部 数据 路 径 
宽度 来 对 高 开销 的 表达 式 求 值 。 

习题 13.8 说 明 通 过 操作 char 或 int 等 类 型 可 以 使 位 同 量 能 够 一 次 操作 
很 多 位 。 

答案 9.7 并 行 统计 位 数 。 


下 面 给 出 了 第 13 章 所 讨论 的 C++ 整数 集合 表示 类 的 完整 清单 ， 
本 书 网 站 上 提供 了 完整 的 源 代码 。 
class IntSetSTL { 
private: 
set<int> S; 
public: 
IntSetSTL(int maxelms,int maxval) { } 
int size() { return S.size(); } 
void insert(int t) { S.insert(t); } 
void report(int *v) 
{ int j = 0; 
set<int>::iterator 1; 
for (i = S.beginQ); i != S.end(); ++i) 


V[j++] = *i; 


}; 
class IntSetArray { 
private: 

int n,*x; 
public: 


IntSetArray(int maxelms,int maxval) 


{x = new int[1 + maxelms]; 
n=0; 
X[0] = maxval; 

} 

int size() { return n; } 

void insert(int t) 

{ for(int i = 0; x[i] < t; i++) 

if (x[i] == t) 

return; 


for (int j = n; j >= i; j--) 


X[j+1] = x[j]; 
xli] =t; 
卫 十 十 ; 
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} 
void report(int *v) 


{ for (int i = 0; i < n; i++) 


vli] = x[i]; 
} 
}; 
class IntSetList { 
private: 
int n; 


struct node { 
int val; 
node *next; 


node(int v,node *p) { val = v; next = p; } 


F; 
node *head,* sentinel; 
node *rinsert(node *p,int t) 
{ if (p->val < t) { 
p->next = rinsert(p->next,t); 
} else if (p->val > t) { 
p = new node(t,p); 
n++; 
} 
return p; 
} 
public: 


IntSetList(int maxelms,int maxval) 


{ sentinel = head = new node(maxval,0); 


n = 0; 
} 


int size() { return n; } 


void insert(int t) { head = rinsert(head,t); } 


void report(int *v) 


{ intj=0; 


for (node *p = head; p != sentinel; p = p->next) 


v[j++] = p->val; 


}; 
class IntSetBST { 
private: 


int n,*v,vn; 


struct node { 
int val; 
node *left,*right; 
node(int v) { val = v; left = right = 0; } 
}; 
node *root; 
node *rinsert(node *p,int t) 
{ if(p == 0) { 
p = new node(t); 
n++; 
} else if (t < p->val) { 
p->left = rinsert(p->left,t); 
} else if (t > p->val) { 
p->right = rinsert(p->right,t); 
} // do nothing if p->val == t 


return p; 
} 
void traverse(node *p) 
{ if (p == 0) 
return; 
traverse(p->left); 
v[vn++] = p->val; 
traverse(p->right); 
} 
public: 


IntSetBST(int maxelms,int maxval) { root = 0; n = 0; } 


int size() { return n; } 


void insert(int t) { root = rinsert(root,t); } 
void report(int *x) { v = x; vn = 0; traverse(root); } 
}; 
class IntSetBitVec { 
private: 
enum { BITSPERWORD = 32,SHIFT = 5,MASK = Ox1F }; 


int n,hi,*x; 


void set(int i) { x[i>>SHIFT] |= (1<<( & MASK); 
} 

void clr(inti) { x[i>>SHIFT] &= ~(1<<(i & MASK)); 
} 

int test(int i) { return x[i>>SHIFT] & (1<<(i & MASK)); } 
public: 


IntSetBitVec(int maxelms,int maxval) 
{ hi = maxval; 
x = new int[1 + hi/BITSPERWORD]; 
for (int i = 0; i < hi; i++) 
clr(i); 
n=0; 
} 
int size() { return n; } 
void insert(int t) 
{ if (test(t)) 
return; 
set(t); 


卫 十 十 ; 
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void report(int *v) 


{ int j=0; 
for (int i = 0; i < hi; i++) 
if (test(i)) 
v[j++] = i; 
} 


}; 
class IntSetBins { 
private: 
int n,bins,maxval; 
struct node { 
int val; 
node *next; 
node(int v,node *p) { val = v; next = p; } 
}; 
node **bin,*sentinel; 
node *rinsert(node *p,int t) 
{ if (p->val < t) { 
p->next = rinsert(p->next,t); 
} else if (p->val > t) { 
p = new node(t,p); 


n+t+: 
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} 


return p; 
} 
public: 
IntSetBins(int maxelms,int pmaxval) 


{ bins = maxelms; 
maxval = pmaxval; 
bin = new node*[bins]; 
sentinel = new node(maxval,0); 
for (int i = 0; i < bins; i++) 
bin[i] = sentinel; 
n=0; 
} 
int size() { return n; } 
void insert(int t) 
{inti =t/(1 + maxval/bins); 
bin[i] = rinsert(bin[i],t); 
} 
void report(int *v) 
{ int j = 0; 
for (int i = 0; i < bins; i++) 
for (node *p = bin[i]; p != sentinel; p = p->next) 


v[j++] = p->val; 


= MIE 


第 1 章 提 示 

4. 阅 读 第 12 章 。 

5. 考 虑 两 趟 算法 。 

6、8、9. 使 用 关键 字 索 引 。 

10. 考 虑 散 列 ， 并 且 不 要 局 限于 计算 机 系统 。 

11. 考 虚 鸟 类 。 

12. 不 使 用 钢笔 你 如 何 写 字 ? 

第 2 章 提示 

1. 考 虑 排序 、 二 分 搜索 和 标识 。 

2. 争 取 获 得 线性 运行 时 间 的 算法 。 

5. 利 用 恒等式 cba=(arbrcrJr。 

7.Vyssotsky 使 用 了 一 个 系统 工具 和 两 个 一 次 性 的 程序 ， 他 编写 后 
两 个 程序 仅仅 是 为 了 重新 组 织 磁带 上 的 数据 。 

8. 考 虑 集合 中 最 小 的 k 个 元 素 。 

9.s 次 顺序 搜索 的 开销 正比 于 sn，s 次 二 分 搜索 的 总 开销 等 于 搜索 的 
开销 加 上 对 表 排 序 所 需 的 时 间 。 在 对 各 种 算法 的 常量 因子 给 予 足够 的 
信任 之 前 ， 请 看 习题 9.9。 

10. 阿 基 米 德 如 何 确 定 皇 冠 不 是 纯 金 的 ? 

第 3 章 提示 


2. 用 一 个 数组 表示 递归 的 系数 ， 男 一 个 数组 表示 前 面 k 个 值 。 程 
序 在 一 个 人 循环 内 部 包含 男 一 个 人 循环 。 

4. 只 需要 从 头 开 始 编写 一 个 函数 ， 其 他 两 个 函数 都 可 以 调用 它 。 

第 4 章 提示 

2. 使 用 精确 的 不 变 式 。 考 虑 在 数组 中 添加 两 个 假想 的 元 素来 初始 
化 不 变 式 : x[ 1]- =-ooFllx[n]J=oo © 

5. 如 果 你 解决 了 这 个 问题 ， 请 到 最 靠近 的 数学 系 申 请 一 个 博士 学 


6. 寻 找 该 过 程 中 的 不 变 式 ， 并 将 铅 中 的 初始 条 件 和 终止 条 件 联系 


7. 再 次 阅读 2.2。 

9. 使 用 下 面 的 循环 不 变 式 ， 它 们 在 while 语句 中 的 测试 之 前 为 真 。 
对 于 向 量 加 法 ， isn &&Vi-j-i a [Hlb] 对 于 顺序 搜索 ，isn 
&&V j< X [j]4t ° 

11. 参 考 答案 11.14 中 把 数组 指针 传递 给 swap 函 数 的 递归 函数 。 

第 5 章 提 示 

3. 搜 索 “mutation testing” 之 类 的 术语 。 

5. 仅 进行 O(log n) 或 0(1) 次 额外 的 比较 ， 如 何 实 现 ? 

6. 本 书 网 站 上 提供 了 一 个 带 有 图 形 用 户 界面 的 Java 程 序 ， 可 用 于 研 
究 排 序 算法 。 

9. 脚 手 架 以 制 表 符 作 为 分 隔 符 ， 这 种 输出 格式 能 够 兼容 大 多 数 的 
电子 表格 。 我 通常 将 一 系列 的 相关 实验 和 它们 的 性 能 图 表 存 储 在 同一 
页 电子 表格 上 ， 并 在 该 页 说 明 为 什么 做 这 些 实验 以 及 从 中 能 学 到 什 
JA o 
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1. 见 8.5 节 。 


3. 修 改 附录 C 中 描述 的 运行 时 间 开 销 模型 ， 以 度量 双 精 度 运算 的 开 
销 。 

7. 可 以 通过 芍 驶 培训 、 严 格 限 速 、 限 制 饮酒 的 最 小 年 龄 、 严 惩 酒 
后 轨 车 、 建 立 恨 好 的 公共 交通 运输 系统 等 措施 来 避免 交通 事故 。 一 旦 
发 生 了 交通 事故 ， 可 以 通过 乘客 舱 的 设计 以 及 安全 带 (可 能 跟 法 律 的 
规定 一 样 ) 和 安全 气 时 的 使 用 来 降低 乘客 的 受伤 程度 。 一 旦 有 人 受伤 
了 ， 可 以 借助 现场 护理 、 救 护 直升机 、 外 伤 中 心 和 矫正 手术 来 降低 伤 
害 造 成 的 后 果 。 

第 7 章 提 示 

5. 下 和 完 从 函数 (1+x/100)”?X 出 发 ， 得 到 (1+0.72/x》 并 使 用 电子 表格 
绘图 。 为 了 证 明 “72 法 则 * 的 性 质 ， 需 要 用 到 下 面 儿 个 结论 : limao 


(1+c/n) =ec ，2 的 自然 对 数 约 为 0.693， 并 且 渐 近 线 并 不 总 是 最 佳 逼近 

8. 请 特别 留意 习题 2.7、8.10、8.12、8.13、9.4、10.10、11.6、 
12.7、12.9、12.11、13.3、13.6、13.11、15.4、15.5、15.7、15.9 和 习题 
15.15， 以 及 习题 1.3、2.2、2.4、2.8、10.2、12.3、13.2、13.3、13.8、 
14.3、14.4、15.1、15.2 和 15.3 节 中 的 设计 和 程序 。 

第 8 章 提示 

4. 绘 制 随机 遇 历 的 素 加 和 。 

7. 浮 点 加 法 不 一 定 需 要 关联 。 

8. 除 了 计算 区 域 中 的 最 大 和 之 外 ， 返 回 数组 每 端 最 大 癌 量 结束 的 
信息 。10、11、12. 使 用 累加 数组 。 

13. 显 而 易 见 的 算法 的 运行 时 间 为 O(n4 )， 请 给 出 一 种 立方 算法 。 

第 9 章 提 示 

3. 由 于 加 法 最 多 只 能 使 k 增 加 n-1， 我 们 可 以 确定 k 小 于 2n 。 


9. 要 使 得 即便 n 非常 小 的 时 候 ， 二 分 搜索 也 跟 顺 序 搜索 差不多 ， 
只 需要 使 比较 操作 的 开销 很 大 就 可 以 了 。 

第 10 章 提示 

1. 编 译 器 生成 什么 样 的 代码 来 访问 压缩 字段 ? 

5. 混 合并 匹配 函数 和 表格 。 

7. 假 设 内 存 中 的 特定 范围 是 等 价 的 ， 这 样 就 可 以 减少 数据 。 这 里 
所 说 的 范围 既 可 以 是 固定 长 度 的 块 (如 64 字 节 ) ， 也 可 以 是 函数 边 
界 o 
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2. 使 循环 下 标 i 从 高 到 低 变 化 ， 逐 渐 靠近 x 中 中 的 已 知 值 t。 

4. 当 你 有 两 个 子 问题 需要 解决 时 ， 哪 个 问题 应 该 立即 解决 ， 哪 个 
问题 应 该 留 在 栈 上 等 以 后 解决 一 一 大 一 些 的 子 问题 还 是 小 一 些 的 子 问 
题 ? 

9. 修 改 快速 排序 ， 使 其 仅 在 包含 k 的 子 范围 内 进行 递归 。 

第 12 章 提示 

4. 向 统计 学 家 请 教 “ 赠 券 收 集 问题 "和 “生日 悖 论 ”。 

11. 该 问题 陈述 表明 ， 你 可 以 使 用 计算 机 ， 但 并 非 必 须 使 用 计算 
机 。 

第 13 章 提示 

2. 应 进行 错误 检查 ， 以 确保 待 插入 的 整数 在 正确 的 范围 内 ， 且 数 
据 结 构 还 没有 被 填 满 。 此 外 ， 还 应 该 用 一 个 析 构 画 数 来 返回 所 分 配 的 
存储 空间 。 

3. 使 用 二 分 搜索 来 测试 某 个 元 素 是 否 在 有 序数 组 中 。 

第 14 章 提示 

2. 我 们 的 目标 是 得 到 一 个 具有 如 下 结构 的 堆 排 序 。 


步骤 0 


步 又 nn 


步骤 27 一 ] 


3. 见 习题 2， 同 时 考虑 把 代码 移出 循环 。 

6. 堆 具有 结 点 i 到 结 点 2i 的 隐 式 指针 ， 为 磁盘 文件 也 加 上 这 一 指 
S 

7.x[0..6] EAN ZDR REH TIRABIRA o AEHL 
隐 式 树 ， 情 况 会 怎样 ? 

9. 对 排序 使 用 Omn log n) 下 界 。 如 果 insert 和 extractmin 的 运行 时 间 都 
小 于 O(log n)， 那 么 排序 时 间 可 以 小 于 O(n log n)。 说 明 如 何 使 用 这 两 
个 操作 来 更 快 地 排序 。 
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15. 假 设 我 们 正 从 一 个 有 100 万 个 单词 的 文档 中 生成 1 阶 马 尔 可 夫 文 
本 ， 该 文档 只 在 短语 “x y xz” 中 包含 单词 x、y 和 z。x 后 面 跟 y 的 可 能 性 
应 为 112， 后 面 跟 z 的 可 能 性 也 应 为 112。 在 香农 的 算法 中 有 什么 差别 ? 

16. 如 何 利 用 k 连 字母 或 k 连 单词 的 计数 ? 

17 一 些 商 业 语 首 识别 如 是 基于 三 连 统计 的 。 


BIHER 
1. 下 面 的 C 程 序 使 用 C 标 准 库 函 数 qsort 来 排序 一 个 整数 文件 。 
int intcomp(int *x,int *y) 
{ return *x - *y; } 
int a[ 1000000]; 
int main(void) 
{ int i,n=0; 
while (scanf("%d",&a[n]) != EOF) 
n++; 
qsort(a,n,sizeof(int),intcomp); 
for (i = 0; i < n; i++) 
printf(""%d\n",a[i]); 
return 0; 
} 
下 面 这 个 C++ 程序 使 用 C++ 标准 模板 库 中 的 set 容 器 完成 相同 的 任 
务 。 
int main(void) 
{ set<int> S; 
int i; 
set<int>::iterator j; 


while (cin >> i) 


S.insert(i); 
for (j = S.beginQ); j != S.endQ); ++j) 
cout << *j << "\n"; 
return 0; 
} 
答案 3 概述 了 上 面 两 个 程序 的 性 能 。 
2. 下 面 的 函数 使 用 常量 来 设置 、 清 除 以 及 测试 位 值 : 
#define BITSPERWORD 32 
#define SHIFT 5 
#define MASK Ox1F 
#define N 10000000 
int a[1 + N/BITSPERWORD]; 
void set(int i) { a[i>>SHIFT] |= (1<<(i & MASK)); } 
void clr(int i) { al[i>>SHIFT] &= ~(1<<(i & MASK)); } 
int test(int i){ return a[i>>SHIFT] & (1<<(i & MASK)); } 
3. 下 面 的 C 代 码 使 用 答案 2 中 定义 的 函数 来 实现 排序 算法 。 
int main(void) 
{ int i; 
for (i = 0; i < N; i++) 
clr(i); 
while (scanf("%d",&i) != EOF) 
set(i); 
for (i = 0; i < N; i++) 
if (test(i)) 
printf("%d\n",i); 


return 0; 


我 使 用 答案 4 中 的 程序 生成 了 一 个 包含 100 万 个 不 同 正 整数 的 文 
件 ， 其 中 每 个 正 整数 都 小 于 1 000 万 。 下 表 列 出 了 使 用 系统 命令 行 排 
序 、 答 案 1 中 的 C++ 和 C 程 序 以 及 位 图 代码 对 这 些 整数 进行 排序 的 开 


89 38 12.6 
79 28 2.4 
0.8 70 4 


第 一 行 是 总 时 间 ， 第 二 行 减 去 了 读 写 文件 所 需 的 10.2 秒 输入 /输出 
时 间 。 尽 管 通用 C++ 程序 所 需 的 内 存 和 CPU 时 间 是 专用 C 程 序 的 50 倍 ， 
但 是 代码 量 仅 有 专用 C 程 序 的 一 半 ， 而 且 扩展 到 其 他 问题 也 容易 得 多 。 

4. 见 第 12 章 ， 尤 其 是 习题 12.8。 下 面 的 代码 假定 randint(d 由 返回 1..u 
中 的 一 个 随机 整数 。 

for i = [0,n) 

x[i] =i 

for i = [0,k) 


swap(i,randint(i,n-1)) 


C/ 位 图 


At lal Ita (Pb) 
计算 时 间 开 销 ( 秒 ) 
空间 开销 (CMB) 


print x[i] 

LH swap EA ANA VE Ag ee 20 FRx PAIN SICH ° B Krandint kW Ala + 
细 讨 论 见 12.1T。 

5. 使 用 位 图 表示 1 000 万 个 数 需 要 1 000 万 个 位 ， 或 者 说 125 万 字 节 。 
考虑 到 没有 以 数字 0 或 1 打头 的 电话 号 码 ， 我 们 可 以 将 内 存 需 求 降低 为 
100 万 字 世 。 另 一 种 做 法 是 采用 两 趟 算法 ， 百 先 使 用 5 000 000/8=625 
000 个 字 的 存储 空间 来 排序 0~4 999 999 之 间 的 整数 ， 然 后 在 第 二 趟 排序 
5 000 000~9 999 999 的 整数 。k 赵 算法 可 以 在 kn 的 时 间 开 请 和 n/k 的 空间 
开销 内 完成 对 最 多 n 个 小 于 n 的 无 重复 正 整数 的 排序 。 


6. 如 果 每 个 整数 最 多 出 现 10 次 ， 那 么 我 们 就 可 以 使 用 4 位 的 半 字 
万 来 统计 它 出 现 的 次 数 。 利 用 习题 5 的 答案 ， 我 们 可 以 使 用 10 000 000/2 
个 字 忆 在 1 趟 内 完成 对 整个 文件 的 排序 ， 或 使 用 10 000 000/2k 个 字 市 在 k 
趟 内 完成 对 整个 文件 的 排序 。 

9. 借 助 于 两 个 额外 的 n 元 向 量 ffom、to 和 一 个 整数 top， 我 们 就 可 以 
使 用 标识 来 初始 化 向 量 data[0..n-]。 如 果 元 素 datafj 已 初始 化 ， 那 么 
from[i]<top## H.to[from[i]] = i。 因 此 ，from 是 一 个 简单 的 标识 ，to 和 top 
一 起 确保 了 from 中 不 会 被 写 入 内 存 里 的 随机 内 容 。 下 图 中 data 的 空 日 项 
未 被 初始 化 : 


i a B 


top 


变量 top 初 始 为 0， 下 面 的 代码 实现 对 数组 元 到 的 自 次 访问 : 

from[i] = top 

to[top] =i 

data[i] = 0 

top++ 

本 习题 和 答案 来 目 Aho、Hopcroft 和 Ullman 编写 的 Design and 
Analysis of Computer Algorithms [1] (Addison-Wesley 出 版 社 1974 年 出 


版 ) 中 的 习题 2.12。 该 习题 结合 了 关键 字 索 引 和 巧妙 的 标识 方法 ， 适 用 
PERMIE ° 

10. 商 店 将 纸 质 订单 表格 放 在 10x10 的 箱 数 组 中 ， 使 用 客户 电话 号 码 
的 最 后 两 位 作为 散 列 索引 。 当 客户 打 电 话 下 订单 了 时， 将 订单 放 到 适当 
的 箱 中 。 当 客户 来 取 商 品 时 ， 销 售 人 员 顺 序 搜索 对 应 箱 中 的 订单 一 一 
这 就 是 经 典 的 “用 顺序 搜索 来 解决 冲突 的 开放 散 列 ”。 电 话 号 码 的 最 后 
两 位 数字 非常 接近 于 随机 ， 因 此 是 非常 理想 的 散 列 函数 ， 而 最 前 面 的 
两 位 数字 则 很 不 理想 一 一 为 什么 ? 一 些 市 政 机 关 使 用 类 似 的 方案 在 记 
事 本 中 记录 信息 。 

11. 两 地 的 计算 机 原先 是 通过 微波 连接 的 ， 但 是 当时 测试 站 打印 图 
纸 所 需 的 打印 机 却 非常 昂贵 。 因 此 ， 该 团队 在 主 广 绘 制图 纸 ， 然 后 拍 
摄 下 来 并 通过 信鸽 把 35 嗓 米 的 压 片 送 到 测试 站 ， 在 测试 站 进行 放大 并 
打印 成 图 片 。 馈 子 来 回 一 次 需要 45 分 钟 ， 是 汽车 所 需 时 间 的 一 半 ， 并 
且 每 天 只 需要 花费 几 美元 。 在 项 目 开 发 的 16 个 月 中 ， 信 和 伍 传 送 了 几 百 
卷 底 片 ， 仅 丢失 了 两 卷 (当地 有 订 ， 因 此 没有 让 信鸽 传 送 机 密 数 
H) 。 由 于 现在 打印 机 比较 便宜 ， 因 此 可 以 使 用 微波 链 路 解决 该 问 
题 o 

12. 根 据 该 传闻 ， 前 苏联 人 用 铅笔 解决 了 这 个 问题 。 有 天 这 个 真实 
故事 的 背景 请 查看 www.spacepen.com ° Fisher Space Pen 公 司 成 立 于 1948 
年 ， 其 书写 设备 被 俄国 航天 局 、 水 故 探 测 人 员 和 喜马拉雅 登山 探险 队 
使 用 过 。 

第 2 章 答案 

A. 我 们 从 表示 每 个 整数 的 32 位 的 视角 来 考虑 二 分 搜索 。 算 法 的 第 
一 趟 GRA) 读 取 40 亿 个 输入 整数 ， 并 把 起 始 位 为 0 的 整数 写 入 一 个 顺 
序 文件 ， 把 起 始 位 为 1 的 整数 写 入 另 一 个 顺序 文件 。 


O/1 探测 


这 两 个 文件 中 ， 有 一 个 文件 最 多 包含 20 亿 个 整数 ,我 们 接 下 来 将 该 
文件 用 作 当 前 输入 并 重复 探测 过 程 ， 但 这 次 探测 的 是 第 二 个 位 。 如 有 果 
原始 的 输入 文件 包含 n 个 元 素 ， 那 么 第 一 趟 将 读 取 n 个 整数 ， 第 二 趟 
最 多 读 取 nm/2 个 整数 ， 第 三 趟 最 多 读 取 n/4 个 整数 ， 依 此 类 推 ， 所 以 总 
的 运行 时 间 正 比 于 n。 通 过 排序 文件 并 扫描 ， 我 们 也 能 够 找到 缺失 的 整 
数 ， 但 是 这 样 做 会 导致 运行 时 间 正 比 于 n log n。 本 习题 是 伊利 详 伊 大 学 
的 Ed Reingold 给 出 的 一 道 测 验 题 。 

B. 见 2.3 节 。 

C. 见 2.4 节 。 

1. 为 了 找 出 给 定单 词 的 所 有 变 位 词 ， 我 们 首先 计算 它 的 标识 。 如 果 
不 允许 进行 预 处 理 ， 那 么 我 们 只 能 顺序 读 取 整 个 字典 ， 计 算 每 个 单词 
的 标识 并 比较 两 个 标识 。 如 果 人 允许 进行 预 处 理 ， 我 们 可 以 在 一 个 预先 
计算 好 的 结构 中 执行 二 分 搜索 ， 该 结构 中 包含 按 标识 排序 的 (标识 ， 
单词 ) 对 。Musser 和 Saini 在 他 们 的 STL Tutorial and Reference Guide [2] 

(Addison-Wesley 出 版 社 1996 年 出 版 ) 一 书 的 第 12 章 ~ 第 15 章 实现 了 几 
个 变 位 词 程 序 。 

2. 二 分 搜索 通过 递归 搜索 包含 半数 以 上 整数 的 子 区 间 来 查找 至 少 出 

现 两 次 的 单词 。 


我 最 初 的 解决 方 宁 不 能 保证 每 次 迭代 都 将 整数 数 日 减 半 ， 所 以 log， 
n 超 的 最 坏 情况 运行 时 间 正 比 于 nlog n。Jim Saxe 经 过 观察 发 现 ， 该 搜 
索 用 不 着 考虑 过 多 的 重复 元 素 ， 从 而 可 以 把 运行 时 间 缩 短 为 线性 时 
间 。 如 有 果 他 的 搜索 程序 知道 当前 范围 内 的 m 个 整数 中 一 定 有 重复 元 素 ， 
那么 程序 只 会 在 当前 工作 磁带 上 存储 m+1 个 整数 ， 此 后 过 来 的 整数 将 会 
个 丢 弃 。 虽 然 他 的 方法 经 常会 忽略 输入 变量 ,但 其 策略 却 足 以 确保 至 
少 能 找到 一 个 重复 元 素 。 

3. 下 面 的 “杂技 ”代码 将 x[m] 疝 左旋 转 rotdist 个 位 置 。 

for i = [0,gcd(rotdist,n)) 


/* move i-th values of blocks */ 
t = x[i] 
ji 
loop 
k = j + rotdist 


if k >=n 


x[j] = x[k] 
j=k 
x[j] =t 
rotdist 和 nm 的 最 大 公约 数 是 所 需 的 置换 次 数 (用 近世 代数 术语 来 
说 ， 也 就 是 旋转 产生 的 置换 群 的 陪 集 个 数 ) 
下 一 个 程序 来 自 Gries 的 Science of Programming —PAY18.17, CR 
设 范 数 swap (a,b,m) 的 功能 是 交换 x[a..at+m-1] 和 和 x[b..b+m-l] ° 
if rotdist == 0 || rotdist == n 


return 


i = p = rotdist 
j=n-p 
while i != j 
/* invariant: 
x[0..p-i ] in final position 
x[p-i..p-1 ] = a (to be swapped with b) 
x[p..p+j-1] = b (to be swapped with a) 
x[p+j..n-1 ] in final position 
*/ 
ifi>j 
swap(p-i,p,j) 
1-=J 
else 
swap(p-i,ptj-ii) 
j-=i 
swap(p-ip,i) 
有 关 循 环 不 变 式 的 描述 见 第 4 章 。 
该 代码 跟 下 面 这 段 《虽然 慢 但 是 正确 的 ) 计算 i 和 j 的 最 大 公约 数 的 
欧 几 里 得 算法 是 同 构 的 (代码 假设 输入 都 不 为 零 ) 。 


int gcd(int i,int j) 


while i != j 
ifi>j 
i-=j 
else 
j-=i 


return i 


Gries 和 Mills 在 康 奈 尔 大 学 计算 机 科学 技术 报告 81-452 的 “交换 部 
分 ?研究 了 所 有 三 种 旋转 算法 。 

4. 我 在 400 MHz 的 Pentium 1l 机 妖 上 运行 了 所 有 三 种 算法 ， 运 行 时 把 
n 固 定 为 1 000 000， 并 使 旋转 距离 从 1 变化 到 50。 下 图 绘制 了 在 每 个 数 
据 集 上 50 次 运行 的 平均 时 间 : 


200 


杂技 算法 


150 
平均 每 个 元 
素 所 需 的 时 ”100 
间 〈 以 纳 秒 为 


单位 ) si 求 逆 算 法 
块 交 换算 法 
0 
l 10 20 30 40 50 
旋转 距离 


求 逆 代 码 的 运行 时 间 比 较 一 致 ， 约 为 每 个 元 素 58 纳 秒 , 仅 当 旋转 距 
离 模 8 余 4 时 跳 到 约 66 纳 秒 〈《 这 可 能 跟 32 字 闻 的 缓存 大 小 有 关 ) 。 块 交 
换算 法 开始 时 开销 最 高 “可 能 是 由 交换 单元 素 块 的 画 数 调用 引起 
的 ) ， 但 是 良好 的 高 速 缓存 性 能 使 得 旋转 距离 大 于 2 时 该 算法 是 最 快 
的 算法 。 洒 技 算 法 开始 时 开销 最 低 ， 但 是 由 于 其 高 速 级 存 性 能 很 差 
(从 每 一 个 32 字 厄 的 高 速 缓 存 线 中 访问 单个 元 素 ) ， 当 旋转 距离 为 8 时 
所 需 时 间 将 近 200 纳 秒 。 杂 技 算法 的 时 间 在 190 纳 秒 左 右 浮动 ， 偶 尔 会 
有 所 下 降 ( 当 旋 转 距离 为 1 000 时 ， 它 的 运行 时 间 会 降 到 105 纳 秒 ， 然 后 
马上 又 恢复 到 190) 。20 世 纪 80 年 代 中 期 ， 当 旋转 距离 设置 为 页 面 大 小 
时 ， 这 一 代码 使 得 页 面 的 性 能 不 稳定 。 


6. 名 字 的 标识 是 其 按键 编码 ， 所 以 “LESK*M*” 的 标识 是 
“5375*6*”。 为 了 在 字典 中 找 出 错误 的 匹配 ， 我 们 用 按键 编码 标识 每 个 
名 字 ， 并 根据 标识 排序 ( 当 标 识 相 同时 根据 名 字 排 序 ) ， 然 后 顺序 读 
取 排 序 后 的 文件 并 输出 具有 不 同名 字 的 相同 标识 。 为 了 检索 出 给 定 按 
钮 编码 的 名 字 ， 我 们 可 以 使 用 一 种 包含 标识 和 其 他 数据 的 结构 。 尽 管 
我 们 可 以 对 该 结构 排序 ， 然 后 用 二 分 搜索 查询 按键 编码 ， 实 际 系统 往 
往 使 用 散 列 技术 或 数据 库 系统 。 

7. 为 了 转 置 行 矩 阵 ，Vyssotsky 为 每 条 记录 搬入 列 号 和 行 号 ， 然 后 调 
用 系统 的 磁带 排序 程序 先 按 列 排序 再 按 行 排序 ， 最 后 使 用 另 一 个 程序 
删除 列 号 和 行 号 。 

8. 该 问题 的 啊 哈 ! 灵 机 一 动 是 : 当 且 仅 当 包含 k 个 最 小 元 素 的 子 集 之 
和 不 超过 t 时 ， 总 和 不 超过 t 的 k 元 子 集 是 存在 的 。 可 以 通过 排序 原始 集 
合 ， 在 正比 于 nlogn 的 时 间 内 找到 该 子 集 ， 也 可 以 使 用 选择 算法 ( 见 答 
案 11.9) ， 在 正比 于 n 的 时 间 内 找到 该 子 集 。 当 Ullman 将 这 道 题 作 为 课 
党 作业 布置 时 ， 学 生 们 不 仅 设计 出 了 上 壕 运 行 时 间 的 算法 ， 还 设计 出 
了 时 间 复 杂 度 为 On log k) ` O(nk) ` O 2 ) 和 O(n ) 的 算法 。 

你 能 否 给 出 对 应 于 这 些 运行 时 间 的 自然 算法 ? 

10. 爱 迪生 在 灯泡 壳 中 治 满 了 水 ， 然 后 将 这 些 水 倒 入 一 个 具有 刻度 
的 圆柱 体 中 。 (如 果 你 注意 提示 可 能 就 会 发 现 ， 阿 基 米 德 也 使 用 水 来 
计算 体积 ， 他 在 获得 啊 哈 ! 灵机 一 动 后 大 喊 “ 我 发 现 了 ! ”来 庆祝 。 ) 

第 3 章 答案 

1. 税 收 表格 中 的 每 一 项 都 包含 三 个 值 : 该 等 级 的 下 界 、 基 本 税收 以 
及 超出 下 界 的 税率 。 通 过 在 表 中 增加 一 个 具有 “无 限 ? 下 界 的 最 终 哨 兵 
项 ， 我 们 可 以 使 顺序 搜索 代码 更 易 编 写 、 速 度 更 快 ( 见 9.2 节 ) ; 当然 
也 可 以 使 用 二 分 搜索 。 这 些 方法 能 够 用 于 任何 分 段 线性 函数 。 

3. 印 刷 体 字 母 “I” 

XXXXXXXXX 


XXXXXXXXX 

XXXXXXXXX 

XXX 

XXX 

XXX 

XXX 

XXX 

XXX 

XXXXXXXXX 

XXXXXXXXX 

XXXXXXXXX 

可 以 编码 为 

3 lines 9 x 

6 lines 3 blank 3 x 3 blank 

3 lines 9 x 

Bye EN ARAB 

39x 

63b3x3b 

39x 

4. 为 了 求 出 两 个 日 期 之 间 的 天 数 ， 我 们 需要 计算 这 两 个 日 期 在 相应 
年 份 中 的 编号 ， 用 后 者 减 去 前 者 “可 能 需要 借助 于 具体 的 年 份 ) ， 然 
后 加 上 年 份 之 差 的 365 倍 ， 最 后 再 为 每 个 加 年 加 上 1。 为 了 求 出 给 定 的 
日 期 是 周 几 ， 我 们 需要 计算 给 定 日 期 和 一 个 已 知 的 周 日 之 间 的 天 数 ， 
然后 用 模 运 算 将 其 转化 为 周 儿 。 为 了 生成 给 定年 份 中 某 个 月 的 日 历 ， 
我 们 需要 知道 该 月 有 多 少 天 (注意 要 正确 处 理 二 月 份 ) 以 及 该 月 的 第 
一 天 是 周 几 。Dershowitz 和 Reingold 专 门 写 了 一 本 Calendrical Calculation 

(s 剑桥 大 学 出 版 社 1997 年 出 版 ) 。 


5. 由 于 对 单词 的 比较 是 从 右 向 左 进行 的 ， 所 以 将 单词 按 相 反 顺 序 
(从 右 到 左 ) 存储 可 能 需要 付出 一 些 代价 。 为 了 表示 后 缓 序列， 我 们 
可 以 使 用 二 维 字符 数组 (通常 比较 浪费 ) 或 者 用 终止 字符 分 隔 后 级 的 
一 维 字符 数组 ， 也 可 以 使 用 市 有 单词 指针 数组 的 字符 数组 。 
6.Aho 、 Kernighan 和 Weinberger 在 AWK Programming Language 
(Addison-Wesley HH high 19884F Hii) 一 书 的 第 101 页 给 出 了 一 个 9 行 的 
程序 来 生成 格式 信 辑 。 
第 4 章 答案 
1. 为 了 证 明 程 序 不 会 出 现 洲 出 错误 ， 我们 在 不 变 式 中 添加 条 件 
0<lsn 和 -1<u<n， 这 样 我 们 就 可 以 限定 +u 的 范围 了 。 这 两 个 条 件 还 可 
以 用 于 证 明 不 会 访问 数组 边界 之 外 的 元 素 。 如 果 像 9.3 太 一 样 定 义 假想 
的 边界 元 到 x[-1] 和 x[n]， 那 么 我 们 束 能 将 mustbe (Lu 形式 化 地 定义 为 
X[]-1]<t 和 x[u+1]>t ° 
2. 见 9.3 节 。 
5. 有 关 这 个 著名 的 未 解决 数学 问题 的 介绍 可 参考 B.Hayes 在 1984 年 1 
月 《科学 美国 人 》 的 计算 机 娱乐 专栏 中 发 表 的 “On the ups and downs of 
hailstone numbers” 一 文 。 如 果 想 进一步 讨论 技术 问题 ， 请 参考 
J.C.Lagarias 在 1985 年 1 月 的 《美国 数学 月 刊 》 上 发 表 的 “The 3x+1 
problem and its generalizations” 一 文 。 在 本 书 出 版 之 际 ， Lagarias 在 
www.research.att.com/~jcl/3x+1.html 上 给 出 了 长 达 30 页 的 参考 文献 ， 其 
中 大 约 有 100 篇 所 到 了 该 问题 。 
6. 由 于 每 一 步 都 使 得 饶 中 的 豆子 减少 1 粒 ， 所 以 该 过 程 能 够 终止 。 
我 们 每 一 步 都 从 咖啡 铅 中 拿 掉 零 个 或 两 个 白 豆 ， 所 以 日 豆 个 数 的 奇偶 
性 保持 不 变 。 因 此 ， 当 且 仅 当 饶 中 最 初 的 白 豆 个 数 为 奇数 时 ， 最 后 留 
下 的 豆子 才 可 能 是 日 色 的 。 
7. 构 成 梯级 的 线段 在 y 方向 上 是 递增 的 ， 因 此 我 们 可 以 通过 二 分 搜 
索 来 找到 包 舍 给 定点 的 两 条 线段 。 搜 索 中 的 基本 比较 说 明了 点 在 给 定 


线段 的 下 方 、 里面 还 是 上 方 。 应 该 如 何 编写 该 函数 呢 ? 

8. 见 9.3 节 。 

第 5 章 答案 

1 .编写 大 型 程序 时 ， 我 为 全 局 变量 使 用 较 长 的 名 字 (10 个 或 20 个 字 
符 ) 。 本 章 使 用 了 像 x、n 和 t 这 样 的 短 变量 名 。 在 大 多 数 软件 项 目 中 ， 
最 短 的 合理 名 称 可 能 类 似 于 elem、nelems 和 target。 我 发 现 建立 脚手架 
的 时 候 使 用 短 名 字 比 较 方 便 ， 在 类 似 4.3 和 的 数学 证 明 中 使 用 短 名 字 也 
是 很 必要 的 。 数 学 上 也 有 类 似 的 法 则 : 对 数学 不 熟悉 的 人 可 能 希望 听 
到 “直角 三 角形 斜 边 的 平方 等 于 两 条 直角 边 的 平方 和 ”， 而 处 理 该 问题 
的 人 通常 会 说 <a2+b2=c2”。 

我 尽 可 能 地 保持 了 Kernighan 和 Ritchie 的 C 编 码 风 格 ， 但 是 我 把 函数 
的 左 花 括号 放 在 了 第 一 行 代 码 中 ， 并 删除 了 其 他 空 行 以 节省 版 面 (对 
于 本 书 中 的 小 函数 而 言 ， 空 行 占 了 很 大 的 百分比 ) 

如 果 目 标 值 不 存在 ， 那 么 5.1 市 的 二 分 搜索 返回 整数 -1， 如 有 果 目 标 
值 存在 ， 那 么 二 分 搜索 就 定位 到 该 值 。Steve McConnell 建 议 搜索 应 该 
返回 两 个 值 : 一 个 是 布尔 值 ， 用 于 表示 目标 值 是 否 存在 ; 男 一 个 是 下 
标 索 引 ， 仪 当 布 尔 值 为 真 时 使 用 : 


boolean BinarySearch(DataType TargetValue,int *TargetIndex) 


/* precondition: Element[0] <= Element[1] <= 
...<= Element[NumElements-1] 
postcondition: 
result == false => 
TargetValue not in Element[0..NumElements-1] 
result == true => 
Element[*TargetIndex] == Target Value 
*/ 


McConnell 的 《代码 大 全 》 一 书 的 第 402 页 的 程序 清单 18.3 是 一 个 
Pascal $A HEF, ET (很 大 的 ) 一 页 ;代码 和 注释 加 起 来 总 共 41 行 。 
该 代码 风格 比较 适合 于 大 型 软件 项 目 。 本 书 的 11.17 仅 用 5 行 代 人 码 束 表 
示 出 了 同样 的 算法 。 

只 有 很 少 的 程序 具有 错误 检查 功能 。 一 些 函 数 从 文件 中 将 数据 读 
入 到 大 小 为 MAX 的 数组 中 ， 由 于 scanf 调 用 很 容易 使 缓冲 区 淤 出 ， 因 
此 ， 作 为 scanf 范 数 形 参 的 数组 实 参 是 全 局 变量 。 

本 书 采 用 了 适合 于 教科 书 和 脚手架 的 人 简短 名 字 ， 但 是 这 种 做 法 不 
适用 于 大 型 软件 项 目 。Kernighan 和 Pike 在 Practice of Programming 一 书 
的 1.1 廊 指出 ，“ 清 晰 往往 来 目 人 简短 ”。 即便 如 此 ， 本 书 的 大 多 数 代 码 还 
是 避免 了 14.3 市 的 C++ 代码 所 体现 出 来 的 难以 置信 的 密集 风格 。 

7. 当 n=1 000 时 ， 按 照排 好 的 顺序 搜索 整个 数组 每 次 需要 351 纳 秒 ， 
而 按 随机 顺序 搜索 会 使 平均 开销 提高 到 418 纳 秒 (大 约 减 慢 20%) 。 当 
n=10 时 ， 实 验 中 甚至 连 二 级 缓存 都 会 溢出 ， 并 且 减 速 因子 为 2.7。 对 
于 8.3 下 中 高 度 调 优 过 的 二 分 搜索 ， 有 序 搜索 能 够 在 125 纳 秒 内 搜索 包 
含 n=1000 个 元 素 的 表 ， 而 随机 搜索 则 需要 266 纳 秒 的 时 间 ， 减 速 因子 超 
过 2 
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4. 和 希望 自己 的 系统 可 靠 吗 ? 在 设计 初期 惑 应 该 建立 可 靠 性 ， 人 否则 以 
后 很 难 加 上 “。 在 设计 数据 结构 时 ， 应 该 使 其 能 够 在 部 分 受 损 时 恢复 信 
已 。 通 过 仔细 的 察看 和 人 简单 的 运行 来 检查 代码 ， 并 进行 广泛 的 测试 。 


在 可 靠 的 操作 系统 上 、 在 使 用 错误 校正 内 存 的 见 余 便 件 系 统 中 运行 您 
I 软件。 制订 一 个 计划 ， 以 全 在 系统 崩溃 (RES AB) 时 能 够 快速 
次 复 。 仔 细 记 录 每 次 朋 并 以 便 学 习 。 

6.“ 在 提高 效率 之 前 移 确 保 正 确 性 ?通常 是 一 个 好 建议 。 不 过 ，Bil 
Wulf 只 花 了 几 分 钟 就 让 我 觉得 这 一 古训 并 没有 我 以 前 想象 得 那么 正 
确 。 他 举 了 一 个 文档 生成 系统 的 例子 ， 该 系统 需要 几 个 小 时 才能 生成 


cy} 


J 


一 一 一 


一 本 书 。Wulf 的 评论 如 下 : “这 个 程序 跟 其 他 任何 大 型 系统 一 样 ， 今 天 
有 10 个 已 知 的 小 错误 ， 下 个 月 又 将 出 现 10 个 新 的 错误 。 如 果 让 你 在 纠 
正当 前 的 10 个 错误 和 使 程序 提速 10 倍 之 间 选 择 ， 你 会 选择 哪 一 个 ? ” 
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在 本 书 付 诸 出 版 时 ， 下 面 这 些 答 案 所 猜测 的 数 与 正确 值 的 偏差 因 
子 可 能 会 达到 2， 但 是 不 会 差 得 太 多 。 

1. 即 便当 帕 塞 伊 克 河 在 新 泽 西 州 帕 特 森 市 的 美丽 的 大 瀑布 处 从 80 英 
尺 的 高 度 落下 来 时 ， 其 流速 也 达 不 到 每 小 时 200 英 里 。 我 怀疑 该 工程 师 
跟 记 者 说 的 是 : 该 河 的 流速 为 每 天 200 英 里 ， 是 每 天 40 英 里 的 常见 速度 
的 5 倍 ， 常见 流速 比较 慢 ， 不 到 每 小 时 两 英里 。 

2. 老 式 的 可 移动 磁盘 容量 为 100 MB。ISDN 线 每 秒 能 传输 112 Kbit, 
或 者 说 每 小 时 能 传输 50 MB。 这 就 相当 于 在 骑 目 行车 的 人 的 口袋 中 放 一 
个 磁盘， 然后 让 他 骑 两 小 时 或 绕 半径 15 英 里 的 圆 一 周 。 为 了 使 比较 更 
有 趣 ， 我 们 将 100 张 DVD 放 入 骑 车 人 的 背包 ， 这 样 他 的 带宽 就 变 成 了 原 
来 的 17 000 倍 ; 把 ISDN 线 更 新 为 AIM 可 以 使 带宽 变 为 原来 的 1 400 倍 ， 
每 秒 能 传输 155 Mbit。 这 样 骑 车 的 人 又 得 到 了 一 个 系数 12， 或 要 说 需要 
骑 一 天 。 ( 写 完 这 段 文字 的 第 二 天 ， 我 发 现 同事 的 办 公 桌 上 堆 着 200 张 
5 GB 的 一 次 写 入 唱片 。 在 1999 年 ， 拥 有 这 么 多 的 媒体 数据 是 很 惊人 
的 。) 3. 软盘 的 容量 为 1.44 MB。 我 全 速 打 字 的 速度 约 为 每 分 钟 50 个 单 
ie] (300 字 节 ) ， 因 此 可 以 在 4 800 分 钟 或 80 小 时 内 填 满 一 张 软盘 。 (本 
书 的 输入 文本 仅 有 0.5 MB， 但 是 我 却 花 了 超过 三 天 的 时 间 才 完成 录 
A) ° 

4. 我 原本 硕 望 得 到 的 答案 是 : 以 前 只 需要 10 纳 秒 的 指令 执行 现在 需 
要 1/100 秒 ， 以 前 只 需要 11 毫 秒 的 磁盘 旋转 (5 400 转 /分 钟 ) 现在 需要 3 
小 时 ， 以 前 只 需要 20 室 秒 的 磁盘 臂 搜索 现在 需要 6 个 小 时 ， 以 前 只 需 
要 两 秒 钟 的 名 字 键 入 现在 大 约 需要 一 个 月 。 一 位 聪明 的 读者 写 道 : “ 需 
要 多 长 时 间 ? 如 有 果 时 钟 也 同样 变 慢 ， 则 所 需 的 时 间 跟 以 前 完全 一 样 。” 


5. 增 长 速率 介 于 5% 和 10% 之 间 时 ,，“72 法 则 ?估算 的 误差 在 1% 以 
内 o 

6. 由 于 72/1.33 约 为 54， 因 此 到 2052 年 人 口 将 翻 倍 ( 令 人 欣喜 的 是 ， 
联合 国 的 估算 使 得 人 口 增长 率 有 了 显著 的 降低 ) 。 

9. 忽 略 由 于 排队 而 导致 的 减速 ， 如 果 每 次 磁盘 操作 需要 20 毫 秒 ( 磁 
盘 辟 搜索 时 间 ) 的 话 ， 那 么 处 理 每 个 事务 需要 2 秒 ， 也 就 是 说 每 小 时 可 
以 处 理 1 800 个 事务 。 

10. 可 以 通过 统计 报纸 上 的 死亡 通告 并 估算 本 地 人 口 来 估算 本 地 的 
死亡 率 。 一 种 更 简单 的 方法 是 利用 Little 定 律 以 及 对 平均 寿命 的 估算 。 
例如 ， 如 果 平 均 和 奉命 为 70 年 ， 那 么 每 年 有 1/70 或 1.4% 的 人 口 死 亡 。 

11.Peter Denning 对 Little 定 律 的 证 明 可 以 分 为 两 部 分 。“ 百 先 ， 定 义 
和 =A 人 为 到 达 速 率 ， 其 中 A 是 在 长 度 为 T 的 观察 时 间 内 到 达 的 数目 。 定 
义 X=C/T 为 输出 速率 ， 其 中 C 是 在 长 度 为 T 的 观察 时 间 内 的 完成 数 。 用 
n(t) 表 示 在 [0,T] 内 的 时 间 t 上 系统 中 的 数目 。 令 W 是 n(t) 下 的 区 域 (单位 
为 “项 一 秒 ”) ， 表 示 观 察 期 间 系统 中 所 有 元 素 的 等 待 时 间 总 和 。 每 个 
元 素 完 成 的 平均 响应 时 间 定 义 为 R=W/C， 单 位 为 “(项 一 秒 )/ 项 *。 系 统 
中 的 平均 数 是 n(t) 的 平均 高 度 ， 即 L=W/T， 单 位 为 “(项 一 秒 )/ 秒 ”。 现 在 
很 明显 L=RX。 这 个 公式 仅 就 输出 速率 而 言 。 没 有 必要 进行 “ 流 平 衡 ”， 
即 具有 相同 的 输出 流量 (用 符号 表示 为 =X) 。 如 果 你 添加 了 这 个 假设 
条 件 ， 公 式 束 变 成 L=Ax R， 这 是 排队 论 和 系统 论 中 遇 到 的 公式 。” 

12. 当 读 到 一 枚 25 美 分 硬币 的 “平均 寿命 是 30 年 "时 ， 我 觉得 这 个 数 
太 大 了 ， 我 记得 自己 没 看 到 过 多 少 古 老 的 硬币 。 因 此 ， 我 把 手 伸 进 口 
袋 ， 找 出 了 12 枚 25 美 分 的 硬币 。 它 们 的 年 龄 如 下 (以 年 为 单位 ) : 

345799121717 19 20 34 平 均 年 龄 为 13 年 ， 这 和 25 美 分 便 币 的 平 
均 寿 命 约 为 (年龄 分 布 相当 均匀 情况 下 ) 寿命 的 两 倍 非常 一 致 。 如 果 
能 找到 大 量 年 龄 都 少 于 5 年 的 硬币 ， 我 就 可 以 进一步 研究 这 个 问题 。 然 
而 ， 这 次 我 认为 这 篇 文章 的 结论 是 正确 的 。 该 文章 还 说 “至 少 制造 了 7.5 


亿 枚 新 泽 西 州 的 25 美 分 硬币 ”， 还 说 每 10 周 就 会 发 行 一 种 新 的 25 美 分 的 
州 硬币 。 这 乘 起 来 就 得 出 如 下 结论 : 每 年 大 约 发 行 40 亿 枚 25 美 分 硬 
币 ， 或 者 说 每 个 美国 居民 每 年 能 得 到 12 枚 新 的 25 美 分 硬币 。 每 枚 25 美 
分 硬币 具有 30 年 的 寿命 就 意味 着 每 个 美国 居民 拥有 360 枚 25 美 分 硬币 。 
这 些 硬币 放 在 口袋 里 太 多 了 ， 但 是 如 果 加 上 家 里 和 汽车 里 的 零钱 ， 以 
及 收银 机 、 投 币 式 自动 售 货 机 和 银行 里 的 硬币 ， 那 就 差不多 了 。 
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1.David Gries 在 1982 年 第 2 期 的 Science of Computer Programming 第 
207 页 一 第 214 页 的 “A Note on the Standard Strategy for Developing Loop 
Invariants and Loops” 一 文中 系统 地 推导 并 验证 了 算法 4。 

3. 算 法 1 大 约 对 函数 max 进 行 了 m /6 次 调用 ， 算 法 2 大 约 进行 了 n2 /2 
次 调用 ， 算 法 4 大 约 进行 了 2n 次 调用 。 算 法 2D 为 素 加 数组 使 用 了 线性 的 
额外 空间 ， 算 法 3 为 栈 使 用 了 对 数 的 额外 空间 。 其 他 算法 仅 使 用 了 常数 
的 额外 空间 。 算 法 4 是 实时 的 : 一 趋 输入 完毕 它 就 计算 出 答案 ， 这 特 
别 适用 于 人 处理 磁盘 文件 。 

5. 如 果 将 cumarr 声 明成 

float *cumarr; 

那么 赋值 

cumarr = realarray+1 

将 意味 着 cumarr[-1] 指 加 realarray[0] ° 

9. 使 用 赋值 maxsofar =-00 38 #4 maxsofar = 0。 如 采 -o 的 使 用 让 你 迷 
惑 ， 也 可 以 使 用 maxsofar = x[0], 为 什么 ? 

10. 初 始 化 累加 数组 cum ， 使 得 cum[i=x[0]+L+xi 。 如 果 
cum[]-1]=cum[u], 48 A Fl Sex.) Z FUBEAO e 因此 ， 可 以 通过 定位 
cum 中 最 接近 的 两 个 元 素来 找 出 和 最 接近 零 的 子 向 量 ; 这 可 以 通过 排序 
数组 ， 在 O(n log n) 时 间 内 完成 。 这 样 得 到 的 运行 时 间 不 超过 最 优 时 间 
的 彰 数 倍 ， 因 为 任何 能 够 解决 这 个 问题 的 算法 都 能 够 用 于 解决 “元 素 唯 


一 性 ”问题 《判断 数组 中 是 否 包含 重复 元 素 。Dobkin 和 Lipton 证 明 “ 元 素 
唯一 性 ?问题 所 需 的 时 间 跟 最 坏 情况 下 决策 树 模型 的 计算 所 需 的 时 间 差 
Paa 

11. 假 设 收费 公路 是 笔直 的 ， 则 收费 站 i 和 收费 站 j 之 间 的 总 费用 为 
cum[j]-cumf[i-H], 其 中 cum 是 类 似 上 题 的 票 加 数组 。 

12. 本 答案 使 用 另 一 个 系 加 数组 。 可 以 使 用 赋值 语句 ; 

for i = [],u] 

xli] += v 

FAA 

cum[u] += v 

cum[l-1] -= v 

上 面 的 两 个 赋值 语句 先 对 x[0..u] 加 上 v， 然 后 再 从 x[0..1-1] 中 减 去 
Vv。 这 些 和 都 计算 完毕 后 ， 我 们 用 下 面 的 语句 计算 数组 x: 

for (i = n-1; i >= 0; i--) 

xli] = x[i+1] + cum[i] 

这 样 束 把 n 次 求 和 的 最 坏 情况 运行 时 间 从 OY ) 降 到 了 O(n)。 在 6.1 
节 描 述 的 Appel 的 n 体 程序 中 ， 收 集 统 计数 的 时 候 出 现 了 这 个 问题 。 使 
用 上 述 解 决 方案 后 ， 统 计 函 数 的 运行 时 间 从 4 小 时 降 到 了 20 分 钟 。 当 程 
序 的 执行 需要 一 年 时 ， 这 样 的 加 速 不 是 很 重要 ; 但 是 如 有 果 程 序 的 执行 
只 需要 一 天 ， 这 样 的 加 速 就 非常 重要 了 。 

13. 为 了 在 Onm2 on 时间 内 找 出 mxn 的 数组 中 总 和 最 大 的 子 数组 ， 可 
以 在 长 度 为 m 的 维度 上 使 用 算法 2 的 方法 ， 在 长 度 为 n 的 维度 上 使 用 算法 
4 的 方法 。 这 样 就 可 以 在 O(n? ) 时 间 内 解决 nxn 问 题 ， 这 个 结果 在 长 达 20 
年 的 时 间 内 一 直 是 最 佳 的 。 在 1998 年 的 Symposium on Discrete 
Algorithms 〈 第 446 页 一 第 452 页 ) 上 ，Tamaki 和 Tokuyama 提 出 了 一 种 稍 
快 一 些 的 算法 ， 运 行 时间 为 Om [dog log n)/(log nt ] )。 他 们 还 给 出 了 


一 种 用 于 找 出 总 和 至 少 为 最 大 值 一 半 的 子 数组 的 O(“n log mo 近似 算 
法 ， 并 介绍 了 其 在 数据 挖掘 中 的 应 用 。 最 理想 的 下 弄 仍 然 正比 于 n ° 
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2. 下 面 这 些 变量 有 助 于 实现 Van Wyk 方 法 的 一 个 变 体 。 我 们 的 方法 
使 用 nodesleft 跟 踪 freenode 所 指 同 的 结 点 的 个 数 NODESIZE 。 当 nodesleft 
变 为 零 时 ， 重 新 分 配 数目 为 NODEGROUP 的 一 组 结 点 。 
#define NODESIZE 8 
#define NODEGROUP 1000 
int nodesleft = 0; 
char *freenode; 
fmallocH yi FA Ay LARA TU A EKAA Vid FA : 
void *pmalloc(int size) 
{ void *p; 
if (size |= NODESIZE) 
return malloc(size); 
if (nodesleft == 0) { 
freenode = malloccCNODEGROUP*NODESIZE); 
nodesleft = NODEGROUP; 
} 
nodesleft--; 
p = (void *) freenode; 
freenode += NODESIZE; 
return p; 
} 
如 果 参 数 不 等 于 NODESIZE ， 则 立即 调用 系统 的 malloc。 当 
nodesleft HORT, BANDE HAR, e EA9910, aS 


行 时 间 从 2.67 秒 降 至 1.55 秒 ， 其 中 论 在 malloc 上 面 的 时 间 由 1.41 秒 降 至 
0.31 秒 (新 运行 时 间 的 19.7%) ° 

如 果 程 序 还 需要 释放 结 点 ， 可 以 用 一 个 新 变量 指向 一 个 空闲 结 点 
的 单 回 链表 。 释 放 一 个 结 点 时 ， 将 其 放 到 该 链表 的 了 最 前 面 。 当 链表 为 
空 时 ， 算 法 分 配 一 组 结 点 ， 并 通过 链表 将 它们 连接 起 来 。 

4. 一 组 按 降 序 排 列 的 值 就 可 以 使 算法 的 时 间 开 销 约 为 2 。 

5. 如 果 二 分 搜索 算法 声称 找到 了 值 {， 那 么 该 值 一 定 在 数组 中 。 不 
过 ， 应 用 于 未 排序 数组 时 ， 算 法 有 了 时 会 在 t 实际 存在 时 报告 说 该 值 不 存 
在 。 在 这 种 情况 ， 算 法 需要 定位 一 对 相 邻 的 元 素 ， 以 确定 在 数组 有 序 
时 t 不 存在 。 

6. 例 如 ， 可 以 使 用 下 面 的 测试 来 判断 一 个 字符 是 否 为 数字 : 

if c >='0' && c <='9' 

4 EFA — SNE EBA EES, MU BEGET AR PRE — BF] 
比较 。 如 果 性 能 很 重要 ， 那 么 我 们 应 该 把 最 有 可 能 成 功 的 测试 条 件 放 
在 前 面 。 通 常 ， 使 用 一 个 256 元 的 表 更 简单 也 更 快 : 

#define isupper(c) (uppertable[c]) 

大 多 数 系 统 为 表 中 的 每 个 元 素 存 储 儿 个 位 ， 并 通过 逻辑 与 操作 来 
提取 : 

#define isupper(c) (bigtable[c] & UPPER) 

#define isalnum(c) (bigtable[c] & (DIGIT|LOWER|UPPER)) 

C 和 C++ 程序 员 可 以 通过 查看 ctype.h 文 件 来 了 解 自己 所 用 的 系统 如 
何 解 决 这 个 问题 。 

7. 第 一 种 方法 是 计算 每 个 输入 单元 〈 可 能 是 一 个 8 位 的 字符 或 32 位 
的 整数 ) 中 为 1 的 位 数 ， 然 后 将 它们 相 加 。 为 了 找 出 16 位 整数 中 为 1 的 
位 数 ， 我 们 可 以 按 顺 序 观察 每 一 位 ， 或 者 (使 用 类 似 b &= (b-0 的 语 


句 ) 对 为 1 的 位 进行 迭代 ， 或 者 查 表 〈 例 如 查询 一 个 216 =65 536 元 的 
K) 。 高 速 缓 存 的 大 小 对 输入 单元 的 选择 有 何 影响 ? 

第 二 种 方法 是 计算 输入 中 每 个 输入 单元 的 个 数 ， 然 后 将 该 个 数 乘 
以 相应 输入 单元 中 为 1 的 位 数 ， 最 后 再 对 各 个 输入 单元 求 总 和 。 

8.R.G.Dromey 使 用 x[m] 作 为 哨兵 ， 用 下 面 的 代码 来 计算 数组 x[0..n- 
1 中 的 最 大 元 素 : 

i=0 


whilei <n 


max = x[i] 
x[n] = max 
i++ 
while x[i] < max 
i++ 
11. 使 用 几 个 72 元 的 表格 来 取代 函数 计算 ， 这 样 可 以 使 该 程序 在 
IBM 7090 上 的 运行 时 间 从 半 小 时 降 至 1 分 钟 。 对 直 升 飞机 的 旋翼 时 卢 进 
行 计 算 大 约 需要 运行 该 程序 300 次 ， 因 此 我 们 增加 的 这 少数 几 百 个 额外 
的 内 存 字 使 得 CPU 时 间 从 一 周 降 至 儿 个 小 时 。 
12.Horner 使 用 下 面 的 方法 对 多 项 式 求 值 : 


y = a[n] 
for (i = n-1; i >= 0; i--) 
y = x*y + ali] 
他 使 用 了 n 次 乘法 ， 运 行 速度 通常 是 以 前 那个 代码 的 两 倍 。 
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1. 每 一 条 访问 压缩 字段 的 高 级 语言 指令 会 被 编译 为 许多 条 机 器 指 
令 ， 而 访问 未 压缩 字段 所 需要 的 机 器 指令 则 少 一 些 。Feldman 对 记录 解 
压 之 后 ， 数 据 空间 稍微 增加 了 一 些 ， 但 代码 空间 和 运行 时 间 却 大 大 减 
少 了 。 


2 一 些 读者 建议 在 存储 三 元 组 (x,y,pointnum) 时 ， 如 果 x 相 同 则 根据 y 
排序 ， 这 样 就 可 以 使 用 二 分 搜索 来 查找 给 定 的 (x,y) 对 。 一 旦 输入 已 经 
根据 x 的 值 排 好 了 序 (并 且 如 上 所 述 ， 在 x 相同 的 情况 下 根据 y 排 好 了 
序 ) ， 文 中 描述 的 数据 结构 就 很 容易 建立 了 。 在 row 数 组 的 firstincol[j] 
和 firstincol[i+]1]-l 之 间 进 行 二 分 搜索 可 以 使 该 结构 的 搜索 更 快 。 注 意 ， 
这 些 y 值 按 升序 排列 ， 并 且 二 分 搜索 必须 能 够 正确 处 理 搜索 空子 数组 
的 情况 。 

4.Almanacs 使 用 表格 将 城市 间 的 距离 存储 为 三 角 数 组 ， 这 可 以 使 
所 需 的 空间 减少 一 半 。 有 时 ， 数 学 表格 仅 存 储 函 数 的 最 低 有 效 位 ， 最 
高 有 效 位 只 给 出 一 次 (比如 ， 对 于 每 一 行 来 说 ) 。 电 视 节 目 表 可 以 通 
过 仅 说 明 节 目的 开始 时 间 来 节省 空间 (不 需要 按照 给 定 的 30 分 钟 时 间 
间隔 列 出 所 有 的 节目 ) 。 

5.Brooks 结合 了 两 种 表示 方法 来 表示 该 表格 。 团 数 与 真实 答案 相 
差 无 几 ， 存 储 在 数组 中 的 单个 十 进 制 数字 给 出 了 它们 之 间 的 区 别 。 阅 
读 了 本 习题 和 答案 之 后 ， 本 版 的 两 位 审 稿 人 评论 说 ， 最 近 他 们 也 通过 
为 近似 函数 补充 一 个 表格 ， 成 功 地 解决 了 一 些 问 题 。 

6. 原 始 文件 需要 300 KB 的 磁盘 空间 。 将 两 个 数字 压缩 到 一 个 字 闻 
中 能 够 将 所 需 的 位 盘 空 间 减 小 到 150 KB ， 但 是 会 增加 读 文 件 所 需 的 时 
间 《〈 那 时 候 * 单 面 双 密度 ”的 5.25 英 寸 软盘 的 容量 为 184KB) 。 使 用 表 碍 
找 来 替代 高 开销 的 /和 % 运 算 需 要 消耗 200 个 字 节 的 主 存 空间 ， 但 却 可 以 
使 读 取 时 间 降 低 到 几乎 跟 原 来 一 样 。 因 此 我 们 相当 于 用 200 字 廊 的 主 存 
换取 了 150 KB 的 人 磁 副 空间 。 一 些 读者 建议 用 c= (a<<4)b 的 方式 编码 ， 
解码 时 可 以 使 用 a=c>>4 和 b=c&0 xF 这 两 个 语句 。John Linderman 通 过 观 
察 指 出 “ 移 位 和 掩 人 码 通常 比 乘除 法 快 ， 而 且 十 六 进 制 转 储 等 常用 工具 能 
够 以 可 读 的 形式 显示 解码 后 的 数据 ”。 
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1. 通 过 排序 来 查找 n 个 浮 点 数 中 的 最 小 值 或 最 大 值 通 常 属于 过 度 使 
用 。 答 案 9 告 诉 我 们 ， 不 使 用 排序 也 可 以 更 快 地 求 出 中 值 ， 但 是 在 某 些 
系统 上 ， 可 能 使 用 排序 更 容易 一 些 。 排 序 对 于 求 众 数 很 有 效 ， 但 散 列 
的 速度 可 能 更 快 。 求 均值 的 算法 的 运行 时 间 通 常 正比 于 n， 但 如 果 先 进 
行 一 轮 排序 可 能 有 助 于 提高 数值 精度 ， 见 习题 14.4.b。 

2.Bob Sedgewick 发 现 ， 可 以 使 用 下 面 的 不 变 式 ， 将 Lomuto 的 划分 
方案 修改 为 从 右 回 左 进行 。 


从 而 划分 代码 可 写 为 : 

m=utl 

for(i = u; i >= 1; i--) [3] 

if x[i] >=t 
swap(--m,i) 

由 于 循环 终止 时 x[m] =t， 所 以 可 以 直接 使 用 参数 (,m-1) 和 (m+tlu) 
进行 递归 ， 不 再 需要 swap 操 作 。Sedgewick 还 用 x 中 作为 哨兵 省 去 了 内 
循环 中 的 一 次 测试 : 

m=i=utl 

do 


while x[--i] < t 


swap(--m,1) 


while i != | 


3. 为 了 确定 cutoff 的 最 佳 值 ， 我 将 n 固 定 为 1 000 000， 然 后 对 cutoff 
在 [1100] 上 的 每 个 可 能 取 值 都 运行 了 一 遍 程 序 ， 结 果 如 下 图 所 示 。 
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不 难看 出 ，50 是 一 个 比较 理想 的 取 值 。cutoff 在 30~70 取 值 时 ， 
运行 时 间 与 取 50 的 情况 相 比 只 相差 几 个 百分点 。 

4. 参 见 11.67 引 用 的 参考 书 。 

5.McIlroy 的 程序 运行 时 间 正 比 于 待 排序 的 数据 量 ， 这 在 最 坏 情况 
下 是 最 好 的 。 该 程序 假定 x[0..n-1] 中 的 每 一 项 都 包含 一 个 整数 length 和 
一 个 指向 数组 bit[0..length-1] 的 指针 。 

void bsort(],u,depth) 


ifl>=u 


return 
for i = [l,u] 
if x[i].length < depth 
swap(i,l++) 


m=1 


for i = [lu] 
if x[i].bit[depth] == 0 
swap(i,m++) 
bsort(l,m-1,depth+1) 
bsort(m,u,depth+1) 

一 开始 用 bsort(0,n-1,1) 调 用 该 贸 数 。 注 意 ， 程 序 中 为 参数 和 定义 for 
循环 的 变量 赋值 了 。 线 性 运行 时 间 很 大 程度 上 得 益 于 swap 操作 移动 的 
是 指 同 位 字符 捉 的 指针 ， 而 不 是 位 字符 串 本 里 。 

6. 选 择 排序 的 实现 代码 如 下 : 

void selsort() 

fori= (0,n-1) 
forj= (in) 
if x[j] < x[i] 
swap(i,j) 

而 尔 排序 的 实现 代码 如 下 : 

void shellsort() 
for(h=1;h<n;h=3*h+1) 


loop 
h/=3 
if (h< 1) 
break 
fori= (hn) 
for (j = i; j >= h; j -= h) 
if (x[j-h] < xD]) 
break 
swap(j-h,j) 


9. 下 面 的 选择 算法 来 自 C.A.R.Hoare， 代 码 由 qsort4 稍 作 修 改 而 得 。 
void select1(],u,k) 

pre l <= k <=u 

post x[l..k-1] <= x[k] <= x[k+1..u] 
ifl>=u 

return 

swap(l,randint(l,u)) 

t=x[l];i=l;j=u+1 

loop 

do i++; while i <= u && xli] <t 
do j--; while x[j] >t 
ifi>j 

break 

temp = x[i]; xli] = x[j]; xj] = temp swap(l,j) 

ifj<k 
select1(j+1,u,k) 

else if j > k 
select1(I,j-1,k) 

由 于 递归 是 函数 的 最 后 一 个 操作 ， 因 此 可 以 将 其 转换 成 一 个 while 
循环 。 在 The Art of Computer Pragramming Volume 3: Sorting and 
Searching 一 书 的 习题 5.2.2-32 中 ， Knuth 证 明 该 程序 平均 需要 3.4n 次 比较 
来 求 出 n 个 元 素 的 中 值 ， 证 明 方 法 本 质 上 类 似 于 答案 2.A 中 的 最 坏 情 况 
证 明 。 

14. 这 一 版 本 的 快速 排序 需要 用 到 指向 数组 的 指针 。 由 于 只 使 用 x 和 
n 两 个 参数 ， 只 要 读者 能 够 理解 x+j+1l 表示 的 是 从 位 置 x[j+1] 开 始 的 数 
组 ， 它 甚至 可 以 比 gsort1 还 简单。 


void qsort5(int x[],int n) 


{ int i,j ; 
if (n <= 1) 
return ; 
for i= 1,j=0;i<n; i++) 
if (x[i] < x[0]) 
swap(++),1,X); 
swap(0,j,X); 
qsort5(x,j); 
qsort5(x+j+1,n-j-1); 
} 
由 于 该 函数 用 到 了 指 癌 数组 的 指针 ， 因 此 它 可 以 用 C 或 C++ 实现 ， 
但 不 能 用 Java 实 现 。 我 们 还 必须 将 数组 名 〈 即 指向 数组 的 指针 ) 传递 给 
swap BY ° 
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1. 下 面 两 个 函数 分 别 返回 一 个 较 大 的 随机 数 (通常 30 位 ) 和 指定 范 
内 的 一 个 随机 数 : 
int bigrand() 
{ return RAND_MAX*rand() + rand(); } 
int randint(int Lint u) 
{ return | + bigrand() % (u-l+1); } 
2. 为 了 从 0~~n-1 范 围 内 选择 m 个 整数 ， 可 以 先 在 该 范围 内 随机 选择 
一 个 数 :， 然 后 输出 ,i+t1,...,itm-1 (有 可 能 绕 回 到 0) 。 这 一 方法 选中 每 
个 整数 的 概率 都 是 m/mn， 但 特定 子 集 的 选中 概率 明显 偏 大 。 
3. 如 采 已 被 选中 的 整数 少 于 m2 个 ， 那 么 对 一 个 已 被 随机 选中 的 整 
数 来 说 ， 其 不 被 再 次 选中 的 概率 大 于 1/2。 由 于 我 们 平均 必须 抛 两 次 硬 
币 才能 得 到 正面 ， 因 此 获得 未 被 选中 的 整数 的 平均 抽签 次 数 小 于 2。 


4. 我 们 将 集合 S 视 为 n 个 初始 为 空 的 坛子 的 集合 。 每 调用 一 次 
randint， 我 们 就 选中 一 个 坛子 往 里 面 扔 一 个 球 ， 如 有 果 该 坛子 中 已 经 有 球 
了 ， 则 成 员 测 试 为 真 。 需 要 多 少 个 球 来 确保 每 个 坛子 中 至 少 有 一 个 
球 ， 这 是 统计 学 上 车 名 的 “ 赠 券 收集 问题 ”(〈 我 必须 收集 多 少 张 棒球 卡 
才能 确保 拥有 所 有 的 n? ) ， 答 案 大 概 为 nmn。 如 果 每 个 球 都 进入 了 不 
同 的 坛子 ， 算 法 需要 mm 次 测试 ， 而 判断 何 时 可 能 会 有 两 个 球 进 入 同一 个 
坛子 ， 可 以 用 “生日 怪 论 ”( 如 果 一 群 人 的 人 数 达 到 23 或 更 多 ， 则 很 可 
能 有 两 个 人 的 生日 是 同一 天 ) 。 一 般 说 来 ， 如 果 有 O(Vn) 个 球 ， 则 很 
可 能 会 有 两 个 球 共享 n 个 坛子 中 的 某 一 个 。 

7. 为 了 按 升序 输出 ， 可 以 把 print 语 句 放 到 递归 调用 之 后 。 

8. 为 了 按 随机 顺序 输出 不 同 的 整数 ， 在 第 一 次 生成 每 个 整数 时 就 将 
其 输出 ， 另 见 答案 1.4。 为 了 按 序 输 出 重复 的 整数 ， 删 除 判 断 整数 是 否 
已 在 集合 中 的 测试 。 为 了 按 随 机 顺序 输出 重复 的 整数 ， 使 用 下 面 的 程 
序 : 

for i = [0,m) 

print bigrand() % n 

9.Bob Floyd7e Ht Ze FRAN RIE ZH, BAEZ ERER 
的 一 些 随机 数 。 因 此 他 提出 了 另 一 个 基于 集合 的 算法 ， 用 C++ 实现 如 
ih: 


void genfloyd(int m,int n) 


{ set<int> S; 
set<int>::iterator ji 
for (int j = n-m; j < n; j++) { 
int t = bigrand() % (j+1); 
if (S.find(t) == S.end()) 
S.insert(t); // t not in S 


else 


S.insert(j); / tin S 
} 
for (i = S.beginQ); i != S.end(); ++i) 
cout << *i << "\n"; 

} 

答案 13.1 用 不 同 的 集合 接口 实现 这 一 算法 。PFloyd ARIA h 
于 1986 年 8 月 《ACM 通 讯 》 的 “编程 珠 现 ? 专 栏 ， 随 后 在 我 1988 年 的 

《编程 珠 现 ITT》 一 书 的 第 13 章 再 次 出 现 ， 以 上 两 处 都 提供 了 对 其 正确 性 
的 简单 证 明 。 

10. 我 们 总 选择 第 1 行 ， 并 以 概率 1/2 选 择 第 2 行 ， 以 概率 1/3 选 择 第 3 
行 ， 依 此 类 推 。 在 这 一 过 程 结 束 时 ， 每 一 行 的 选中 概率 是 相等 的 〈 都 
是 Wn， 其 中 nn 是 文件 的 总 行 数 ) : 

i=0 

while more input lines 


with probability 1.0/++i 


choice = this input line 

print choice 

11. 我 在 “应 用 算法 设计 ? 谋 程 的 家 庭 作 业 中 布置 过 完全 一 样 的 题 
目 。 如 果 学 生 给 出 了 只 需要 几 分 钟 的 CPU 时 间 束 能 计算 出 答案 的 方 
法 ， 我 会 给 他 们 零 分 ， 如 果 管 案 是 “我 需要 和 统计 学 教授 讨论 *"， 可 以 
得 到 一 半 的 分 数 ， 最 佳 答案 应 该 像 这 样 : 

数字 4 一 16 对 游戏 没有 影响 ， 可 以 忽略 。 如 果 1 和 2 都 出 现 (顺序 不 
BR) 在 3 之 前 ， 则 玩家 获胜 。 这 种 情况 发 生 在 3 最 后 选中 时 ， 概 率 为 
1/3。 因 此 ， 随 机 选择 覆盖 点 的 顺序 就 能 够 获胜 的 概率 精确 地 等 于 1/3。 

不 要 受 问 题 陈述 的 误导 ， 我 们 没 必 要 仅仅 因为 可 以 使 用 CPU 时 间 
而 去 使 用 CPU 时 间 。 


12.5.9% 7724 T Kemighan#ilPikeH)Practice of Programming ° 该 书 的 
6.8 下 描述 了 他 们 如 何 测试 概率 程序 (我 们 在 15.3 节 将 看 到 男 一 个 完成 
同一 任务 的 程序 ) 。 
第 13 章 答案 
1. 答 案 12.9 的 Floyd 算 法 可 以 用 IntSet 类 实现 如 下 : 
void genfloyd(int m,int maxval) 
{ int *v = new int[m]; 
IntSetSTL S(m,maxval); 
for (int j = maxval-m; j < maxval; j++) { 
int t = bigrand() % (j+1); 
int oldsize = S.size(); 
S.insert(t); 
if (S.sizeQ) == oldsize) // t already in S 
S.insert(j); 
} 
S.report(v); 
for (int i = 0; i < m; i++) 
cout << v[i] << "\n"; 
} 
当 m 和 maxval 相 等 时 ， 元 素 按 升序 插入 ， 这 正 是 二 分 搜索 树 的 最 坏 
情况 。 
4. 下 面 的 链表 迭代 插入 算法 比 对 应 的 递归 算法 长 一 些 ， 因 为 它 把 在 
head 后 面 插 入 结 点 和 后 来 在 链表 中 插入 结 点 的 实例 分 析 各 写 了 一 过 : 
void insert(t) 
if head->val == 
return 


if head->val > t 


箱 。 


head = new node(t,head) 
卫 十 十 
return 


for (p = head; p->next->val < t; p = p->next) 


if p->next->val == t 
return 
p->next = new node(t,p->next) 
n++ 
下 面 的 简化 代码 通过 使 用 指向 指针 的 指针 来 去 除 重 复 : 
void insert(t) 


for (p = &head; (*p)->val <t; p = &((*p)->next)) 


if (*p)->val == t 
return 
*p = new node(t,*p) 
n++ 
这 上段 代码 的 速度 跟前 一 版 本 一 样 快 。 只 要 对 其 稍 作 修 改 即 可 用 于 
答案 7 将 这 一 方法 用 到 了 二 分 搜索 树 上 。 
5. 为 了 用 一 次 存储 分 配 来 取代 多 次 分 配 ， 我 们 需要 有 一 个 指向 下 一 


个 可 用 结 点 的 指针 : 


node *freenode; 
在 构造 类 的 时 候 束 分 配 出 足够 的 空间 : 
freenode = new node[maxelms] 
然后 在 插入 函数 中 根据 需要 加 以 使 用 : 
if (p == 0) 

p = freenode++ 


p->val =t 
p->left = p->right = 0 
n++ 
else if... 
同样 的 方法 可 以 应 用 到 箱 中 。 答 案 7 将 其 用 到 了 二 分 搜索 树 上 。 
6. 按 升序 插入 结 点 可 以 度量 数组 和 链表 的 搜索 开销 ， 而 且 只 会 引入 
很 小 的 插入 开销 。 
而 对 于 箱 和 二 分 搜索 树 ， 该 代码 会 导致 最 坏 情况 。 
7. 把 以 前 的 nu 指针 都 指向 哨兵 结 点 ， 哨 其 在 构造 函数 中 进行 初始 
化 : 
root = sentinel = new node 
插入 代码 先 将 目标 值 t 放 入 哨兵 结 点 ， 然 后 用 一 个 指 癌 指针 的 指针 
( 见 答案 4) 来 自 顶 向 下 遍历 树 直至 找到 t。 接 着 使 用 答案 5 的 方法 插入 
一 个 新 结 点 。 


void insert(t) 


sentinel->val = t 
p = &root 
while (*p)->val != t 
if t < (*p)->val 
p = &((*p)->left) 
else 
p = &((*p)->right) 
if *p == sentinel 
*p = freenodet++ 
(*p)->val =t 
(*p)->left = (*p)->right = sentinel 


卫 十 十 


其 中 结 点 变量 声明 并 初始 化 如 下 : 

node **p = &root; 

9. 为 了 用 移 位 取代 除法 ， 我 们 用 类 似 下 面 的 伪 代 码 对 变量 进行 初始 
化 : 

goal = n/m 

binshift = 1 

for (i = 2; i < goal; i *= 2) 

binshift++ 

nbins = 1 + (n >> binshift) 

插入 函数 从 该 结 点 开始 : 

p = &(bin[t >> binshift]) 

10. 可 以 通过 混合 并 匹配 多 种 数据 结构 来 表示 随机 集合 。 例 如 ， 由 
于 我 们 很 清楚 每 个 箱 中 将 包含 多 少 项 ， 因 此 可 以 用 13.2 市 的 知识 ， 使 用 
小 数组 来 表示 大 多 数 箱 中 的 项 〈 当 箱 太 满 时 可 以 将 剩 下 的 元 素 放 到 一 
个 链表 中 ) ° Don Knuth 在 1986 年 5 月 《ACM 通 讯 》 的 “编程 珠 现 ?专栏 
中 描述 了 一 种 * 有 序 散 列表 "来 解决 这 一 问题 ， 以 展示 他 的 文档 化 Pascal 
程序 Web 系 统 。 该 论文 也 是 他 1992 年 出 版 的 Literate Programming 一 书 的 
BSR © 

第 14 章 答案 

1. 把 swap 函 数 中 与 临时 变量 相关 的 赋值 移 到 循环 之 外 ， 就 可 以 使 
siftdown 运 行 得 更 快 。 为 使 siftup 运 行 得 更 快 ， 除 了 可 以 这 样 做 之 外 ， 还 
可 以 在 x[0] 中 放 一 个 哨兵 元 素 ， 省 去 测试 if i == 1 ° 

2. 修 改 后 的 siftdown 范 数 与 本 书 的 siftdown 芳 数 差 别 不 大 。 几 值 语句 
i = 1 替换 为 了 i=]， 与 n 的 比较 蔡 换 为 了 与 u 的 比较 。 修 改 后 钞 数 的 运行 
时 间 为 Odogu-logD。 

下 面 的 代码 可 以 在 O(n) 时 间 内 构造 一 个 堆 : 


for (i = n-1; i >= 1; i--) 


/* invariant: maxheap(i+1,n) */ 
siftdown(i,n) 
/* maxheap(i,n) */ 
由 于 maxheap(l,n) 对 所 有 1 > m2 的 整数 都 为 真 ， 因 此 for 循 环 的 边界 
n-1 可 以 改 为 n/2。 
3. 使 用 答案 1 和 答案 2 中 的 函数 ， 堆 排序 如 下 : 
for (i = n/2; i >= 1; i--) 


siftdown1(i,n) 


for (i = n; i >= 2; i--) 

swap(1,i) 
siftdown1(1,i-1) 

其 运行 时 间 仍 为 O(n log n), (Hae Fe AA BULL DA BIT AY HEE Ae 2 “| — 
o 本 书 网 站 上 的 排序 程序 提供 了 几 种 堆 排 序 实现 。 

4. 堆 实现 使 得 下 面 4 个 问题 中 的 OO 过 程 变 成 了 JOUog mm 过程。 

a. 构 建 赫 夫 受 码 的 友 代 步骤 选择 集合 中 的 两 个 最 小 结 点 ， 将 其 归并 
为 一 个 新 结 点 。 这 是 通过 两 次 extractmin 调 用 和 一 次 insert 调 用 来 实现 
的 。 如 果 输 入 的 各 频率 是 有 序 的 ， 那 么 就 可 以 在 线性 时 间 内 计算 出 茸 
KREIS, AT AER o 

b. 简 单 地 把 较 小 的 浮 点 数 和 较 大 的 浮 点 数 相 加 可 能 会 丢失 精度 。 一 
种 较 好 的 算法 每 次 都 把 集合 中 最 小 的 两 个 数 相 加 ， 类 似 于 上 面 所 到 的 
构建 赫 夫 曼 码 的 算法 。 

c. 用 一 个 百 万 元 堆 (最 小 的 元 素 在 顶部 ) 来 表示 目前 所 看 到 的 最 大 
的 100 万 个 数 。 

d. 可 以 用 堆 表 示 每 个 文件 中 的 下 一 个 元 素 ， 从 而 实现 对 有 序 文件 的 
归并 。 送 代步 又 从 堆 中 选 出 最 小 的 元 素 ， 并 将 其 后 继 插 入 堆 中 。n 个 文 
件 中 下 一 个 每 输出 的 元 素 可 以 在 O(log nm 时间 内 选 出 。 


bss 


5. 把 箱 序 列 组 织 成 一 种 类 似 于 堆 的 结构 ， 堆 的 每 个 结 点 说 明 其 后 代 
中 最 不 满 的 箱 的 剩余 空间 。 在 决定 往 哪里 放 新 权 值 时 ， 搜 索 尽 可 能 地 
往 左 进行 《只 要 左边 最 不 满 的 箱 有 足够 的 空间 放 该 权 值 ) ， 只 有 在 迫 
不 得 已 时 才 往 右 进行 。 这 样 所 需 的 时 间 正 比 于 堆 的 深度 O(log mn。 当权 
值 插入 后 ， 疝 上 重新 遍历 该 路 径 以 调整 堆 中 的 权 值 。 

6. 人 磁盘 上 顺序 文件 的 常见 实现 使 得 块 i 指向 块 i + 1。Ed McCreight 发 
现 ， 如 末 同 时 让 结 点 i 指向 结 点 2i1， 那 么 最 多 访 存 O(log nix PRE EI 
意 一 个 结 点 n。 下 面 的 递归 函数 输出 了 访问 的 路 径 。 

void path(n) 


pren>=0 
post path to n is printed if n == 0 
print "start at 0" 
else if even(n) 
path(n/2) 
print "double to ",n 
else 
path(n-1) 
print "increment to ",n 
注意 ， 这 和 习题 4.9 中 在 O(log n) 时 间 内 计算 x? 的 程序 是 类 似 的 。 
7. 修 改 后 的 二 分 搜索 从 i = 1 开始 ， 每 次 迭代 将 i 设置 为 2i 或 2 + 1 ° 
元 素 x[1] 包 偏 中 值 ，x[2] 包 含 第 一 个 四 分 位 值 ，x[3] 包 伟 第 三 个 四 分 位 
值 ， 依 此 类 推 。S.R.Mahaney 和 J.I.Munro 发 现 了 一 种 能 在 On) 时 间 内 将 n 
元 有 序数 组 调整 为 “ 堆 搜 索 * 顺 序 的 算法 。 作 为 该 方法 的 先驱 ， 考 虑 把 
— 2K — 1 元 的 有 序数 组 a 挝 贝 到 一 个 “ 堆 搜 索 ” 数 组 b 中 : a 中 奇数 位 的 元 
素 按 顺序 放 到 b 的 后 半 部 分 ， 模 4 余 2 位 置 的 元 素 按 顺序 放 到 b 中 剩余 部 
分 的 后 半 部 分 ， 依 此 类 推 。 


11.C++ 标 准 模 板 库 中 文 持 扒 的 操作 有 make_heap ` push_heap ` 
pop_heap 和 sort_heap 等 。 结 合 这 些 操作 可 以 得 到 像 下 面 这 样 简单 的 堆 排 
序 : 


make_heap(a,a+n); 


sort_heap(a,a+n); 

标准 模板 库 也 提供 了 priority_queue 文 持 。 

第 15 章 答案 

1. 许 多 文档 系统 都 提供 了 去 除 所 有 格式 命令 并 查看 输入 的 原始 文本 
表示 的 方法 。 我 在 长 文本 上 运行 15.2 节 的 字符 串 重复 程序 时 发 现 ， 该 程 
序 对 文本 的 格式 非常 敏感 。 程 序 处 理 和 詹姆斯 一 世 和 钦定 版 《圣经 》 中 的 4 
460 056 个 字符 需要 36 秒 ， 且 最 长 的 重复 子 字符 串 为 269 个 字符 。 如 果 
删除 每 行 的 行 号 以 标准 化 输入 文本 ， 那 么 长 字符 串 束 可 以 跨越 行 边 
界 ， 从 而 最 长 的 重复 子 字 符 串 达到 了 563 个 字符 ， 但 是 程序 找到 它 的 
时 间 几 乎 没有 变 。 

3. 由 于 该 程序 每 次 插入 都 需要 执行 很 多 次 搜索 ， 因 此 只 有 很 少 的 时 
间 用 于 内 存 分 配 。 采 用 专用 的 存储 分 配 吏 能 使 处 理 时 间 减 少 约 0.06 
秒 ， 能 使 插入 程序 的 速度 提高 10%， 但 是 对 整个 程序 的 提速 只 有 2%。 

5. 可 以 在 C++ 程 序 中 添加 男 一 个 映射 ， 将 一 组 单词 跟 它 们 的 计数 联 
系 起 来 。 在 C 程 序 中 我 们 可 以 根据 计数 对 数组 排序 ， 然 后 对 其 达 代 (由 
于 一 些 单词 的 计数 会 比较 大 ， 数 组 应 该 比 输 入 文件 小 得 多 ) 。 对 于 常 
见 的 文档 ， 我 们 可 以 用 关键 字 索 引 ， 并 保存 一 个 在 一 定 范围 〈 如 1~1 
000) 内 计数 的 链表 数组 。 

7. 算 法 教材 多 次 提醒 我 们 注意 类 似 于 “aaaaaaaa” 的 输入 。 我 发 现 对 
由 换行 符 组 成 的 文件 计时 要 更 容易 一 些 。 程 序 处 理 5 000 个 换行 符 需要 
2.09 秒 ， 处 理 10 000 个 换行 符 需 要 8.90 秒 ， 处 理 20 000 个 换行 符 需 要 
37.90 秒 。 这 一 增长 速度 要 比 平方 快 一 些 ， 也 许 正 比 于 大 约 n log; n 次 比 


较 ， 其 中 每 次 比较 的 平均 开销 都 正比 于 n。 把 一 个 大 输入 文件 的 两 份 乒 
贝 拼接 在 一 起 产生 的 不 民 输 入 可 能 更 接近 实际 生活 。 

8. 子 数组 a[i..i + M] 表 示 M + 1 个 字符 串 。 由 于 数组 是 有 序 的 ， 我 们 
可以 通过 调用 在 第 一 个 和 最 后 一 个 字符 串 上 调用 comlen 画 数 来 快速 确 
EXM + 1 个 字符 串 共有 的 字符 数 : 

comlen(a[i],a[i+M]) 

本 书 网 站 提供 了 实现 这 一 算法 的 代码 。 

9. 把 第 一 个 字符 串 读 入 数组 ce， 记 录 其 结束 的 位 置 并 在 其 最 后 填 入 
TFR: 然后 读 入 第 二 个 字符 串 并 进行 同样 的 处 理 。 跟 以 前 一 样 进 行 
排序 。 扫 描 数组 时 ， 使 用 “ 异 或 ”操作 来 确保 恰 有 一 个 字符 串 是 从 过 渡 
点 前 面 开始 的 。 

14. 下 面 的 函数 对 k 个 单词 组 成 的 序列 进行 了 散 列 ， 其 中 每 个 单词 都 
以 空 字符 结束 : 


unsigned int hash(char *p) 


unsigned int h = 0 

intn 

for (n = k; n > 0; p++) 
h = MULT * h + *p 


if (*p == 0) 
n— 
return h % NHASH 


本 书 网 站 上 的 一 个 程序 使 用 这 个 散 列 函数 取代 了 马尔 可 夫 文 本 生 
成 算法 中 的 二 分 搜索 ， 使 平均 运行 时 间 从 O(n log n) 降 到 了 O(n)。 该 程 
序 在 散 列 表 中 为 元 素 使 用 了 链表 表示 法 ， 只 增加 了 nwords 个 32 位 整数 
的 额外 空间 ， 其 中 nwords 是 输入 中 的 单词 个 数 。 
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